Vision language models (VLMs) achieve strong performance on general image understanding but struggle to think with medical images, especially when performing multi-step reasoning through iterative visual interaction. Medical VLMs often rely on static visual embeddings and single-pass inference, preventing models from re-examining, verifying, or refining visual evidence during reasoning. While tool-integrated reasoning offers a promising path forward, open-source VLMs lack the training infrastructure to learn effective tool selection, invocation, and coordination in multi-modal medical reasoning. We introduce MedVistaGym, a scalable and interactive training environment that incentivizes tool-integrated visual reasoning for medical image analysis. MedVistaGym equips VLMs to determine when and which tools to invoke, localize task-relevant image regions, and integrate single or multiple sub-image evidence into interleaved multimodal reasoning within a unified, executable interface for agentic training. Using MedVistaGym, we train MedVistaGym-R1 to interleave tool use with agentic reasoning through trajectory sampling and end-to-end reinforcement learning. Across six medical VQA benchmarks, MedVistaGym-R1-8B exceeds comparably sized tool-augmented baselines by 19.10% to 24.21%, demonstrating that structured agentic training--not tool access alone--unlocks effective tool-integrated reasoning for medical image analysis.


翻译:视觉语言模型在通用图像理解任务上表现出色,但在处理医学图像时,尤其在需要通过迭代视觉交互进行多步推理的场景中,仍面临显著挑战。现有的医学视觉语言模型通常依赖于静态视觉嵌入和单次推理机制,导致模型在推理过程中无法对视觉证据进行重新审视、验证或优化。尽管工具集成推理为这一领域提供了有前景的发展路径,但开源视觉语言模型目前缺乏相应的训练基础设施,难以在多模态医学推理中学习有效的工具选择、调用与协调策略。为此,我们提出了MedVistaGym——一个可扩展的交互式训练环境,旨在促进面向医学图像分析的工具集成视觉推理。MedVistaGym赋予视觉语言模型以下能力:判断何时调用何种工具、定位任务相关的图像区域,并将单个或多个子图像证据整合到交错的多模态推理流程中,所有操作均在统一的、可执行的智能体训练接口中完成。基于MedVistaGym,我们通过轨迹采样与端到端强化学习方法训练了MedVistaGym-R1模型,使其能够将工具使用与智能体推理过程交错结合。在六项医学视觉问答基准测试中,MedVistaGym-R1-8B模型相较于同等规模的工具增强基线模型,性能提升了19.10%至24.21%。这一结果表明,结构化智能体训练——而非单纯提供工具访问权限——才是解锁医学图像分析中高效工具集成推理能力的关键。

0
下载
关闭预览

相关内容

用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
47+阅读 · 2022年10月3日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
7+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
5+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
9+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
4+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
7+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
6+阅读 · 4月20日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员