MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning - 专知论文

会员服务 ·

0

交互 · Agent · 分割 · 医学图像 · 医学图像分割 ·

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

翻译：MedSAM-Agent：基于多轮智能体强化学习赋能交互式医学图像分割

Shengyuan Liu,Liuxin Bao,Qi Yang,Wanting Geng,Boyun Zheng,Chenxin Li,Wenting Chen,Houwen Peng,Yixuan Yuan

from arxiv, 23 Pages, 4 Figures

Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available \href{https://github.com/CUHK-AIM-Group/MedSAM-Agent}{here}.

翻译：医学图像分割正从任务特定模型向通用化框架演进。近期研究利用多模态大语言模型作为自主智能体，采用带可验证奖励的强化学习来协调如Segment Anything Model等专用工具。然而，这些方法通常依赖单轮、僵化的交互策略，且在训练过程中缺乏过程级监督，这限制了其充分挖掘交互工具动态潜力的能力，并导致冗余操作。为弥补这一不足，我们提出MedSAM-Agent框架，将交互式分割重新定义为多步骤自主决策过程。首先，我们引入一种混合提示策略用于专家引导的轨迹生成，使模型能够内化类人决策启发式与自适应优化策略。此外，我们开发了一个两阶段训练流程，该流程将多轮端到端结果验证与临床保真度的过程奖励设计相结合，以促进交互简洁性与决策效率。在6种医学模态和21个数据集上的大量实验表明，MedSAM-Agent实现了最先进的性能，有效将自主医学推理与鲁棒的迭代优化相统一。代码发布于\href{https://github.com/CUHK-AIM-Group/MedSAM-Agent}{此处}。

0

相关内容

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

【伦敦国王学院博士论文】可信深度学习医学图像分割，270页pdf

【伦敦国王学院博士论文】可信深度学习医学图像分割，270页pdf

专知会员服务

44+阅读 · 2023年6月1日

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

专知会员服务

52+阅读 · 2022年11月29日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

专知会员服务

95+阅读 · 2022年8月16日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

深度学习下的医学影像分割算法综述

专知会员服务

116+阅读 · 2021年1月11日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

肝脏磁共振图像分割的可计算变分模型

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Arxiv

0+阅读 · 3月10日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Arxiv

0+阅读 · 2月18日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Arxiv

0+阅读 · 2月12日

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Arxiv

0+阅读 · 2月10日

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月9日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

医学图像分割

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

13+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

【伦敦国王学院博士论文】可信深度学习医学图像分割，270页pdf

【伦敦国王学院博士论文】可信深度学习医学图像分割，270页pdf

专知会员服务

44+阅读 · 2023年6月1日

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

U-Net如何用在医学图像分割？德国亚琛工大等最新《医学图像分割》综述，详述六大类100多个算法

专知会员服务

52+阅读 · 2022年11月29日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

专知会员服务

95+阅读 · 2022年8月16日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

深度学习下的医学影像分割算法综述

专知会员服务

116+阅读 · 2021年1月11日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

相关论文

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Arxiv

0+阅读 · 3月10日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Arxiv

0+阅读 · 2月18日

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

Arxiv

0+阅读 · 2月16日

IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Arxiv

0+阅读 · 2月12日

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Arxiv

0+阅读 · 2月10日

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月9日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

相关基金

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

肝脏磁共振图像分割的可计算变分模型

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员