Recent research on medical MLLMs has gradually shifted its focus from image-level understanding to fine-grained, pixel-level comprehension. Although segmentation serves as the foundation for pixel-level understanding, existing approaches face two major challenges. First, they introduce implicit segmentation tokens and require simultaneous fine-tuning of both the MLLM and external pixel decoders, which increases the risk of catastrophic forgetting and limits generalization to out-of-domain scenarios. Second, most methods rely on single-pass reasoning and lack the capability to iteratively refine segmentation results, leading to suboptimal performance. To overcome these limitations, we propose a novel agentic MLLM, named IBISAgent, that reformulates segmentation as a vision-centric, multi-step decision-making process. IBISAgent enables MLLMs to generate interleaved reasoning and text-based click actions, invoke segmentation tools, and produce high-quality masks without architectural modifications. By iteratively performing multi-step visual reasoning on masked image features, IBISAgent naturally supports mask refinement and promotes the development of pixel-level visual reasoning capabilities. We further design a two-stage training framework consisting of cold-start supervised fine-tuning and agentic reinforcement learning with tailored, fine-grained rewards, enhancing the model's robustness in complex medical referring and reasoning segmentation tasks. Extensive experiments demonstrate that IBISAgent consistently outperforms both closed-source and open-source SOTA methods. All datasets, code, and trained models will be released publicly.


翻译:近期关于医学MLLMs的研究逐渐从图像级理解转向细粒度的像素级理解。尽管分割是像素级理解的基础,现有方法仍面临两大挑战:首先,它们引入隐式分割标记并需同时微调MLLM与外部像素解码器,这会增加灾难性遗忘的风险并限制其在域外场景的泛化能力;其次,多数方法依赖单次推理且缺乏迭代优化分割结果的能力,导致性能欠佳。为突破这些局限,我们提出一种新型代理式MLLM——IBISAgent,将分割重构为以视觉为中心的多步骤决策过程。该模型使MLLMs能够生成交错式推理与基于文本的点击动作、调用分割工具并生成高质量掩膜,而无需修改架构。通过对掩膜图像特征进行迭代式多步骤视觉推理,IBISAgent天然支持掩膜优化并促进像素级视觉推理能力的发展。我们进一步设计包含冷启动监督微调与细粒度奖励驱动的代理强化学习的两阶段训练框架,增强模型在复杂医学指代与推理分割任务中的鲁棒性。大量实验表明,IBISAgent在闭源与开源SOTA方法中均取得持续领先性能。所有数据集、代码及训练模型将全面公开。

0
下载
关闭预览

相关内容

专知会员服务
116+阅读 · 2021年1月11日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
116+阅读 · 2021年1月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员