Segment Anything Model 3 (SAM3) advances open-vocabulary segmentation through promptable concept segmentation, enabling users to segment all instances associated with a given concept using short noun-phrase (NP) prompts. While effective for concept-level grounding, real-world interactions often involve far richer natural-language instructions that combine attributes, relations, actions, states, or implicit reasoning. Currently, SAM3 relies on external multi-modal agents to convert complex instructions into NPs and conducts iterative mask filtering, leading to coarse representations and limited instance specificity. In this work, we present SAM3-I, an instruction-following extension of the SAM family that unifies concept-level grounding and instruction-level reasoning within a single segmentation framework. Built upon SAM3, SAM3-I introduces an instruction-aware cascaded adaptation mechanism with dedicated alignment losses that progressively aligns expressive instruction semantics with SAM3's vision-language representations, enabling direct interpretation of natural-language instructions while preserving its strong concept recall ability. To enable instruction-following learning, we introduce HMPL-Instruct, a large-scale instruction-centric dataset that systematically covers hierarchical instruction semantics and diverse target granularities. Experiments demonstrate that SAM3-I achieves appealing performance across referring and reasoning-based segmentation, showing that SAM3 can be effectively extended to follow complex natural-language instructions without sacrificing its original concept-driven strengths. Code and dataset are available at https://github.com/debby-0527/SAM3-I.


翻译:SAM3(Segment Anything Model 3)通过可提示概念分割推动了开放词汇分割的发展,使用户能够利用简短名词短语提示对给定概念的所有实例进行分割。尽管该方法在概念级定位上表现有效,但实际交互往往涉及更丰富的自然语言指令,例如属性、关系、动作、状态或隐含推理的组合。当前,SAM3依赖外部多模态智能体将复杂指令转换为名词短语,并通过迭代式掩膜过滤机制进行处理,导致表征粗糙且实例特异性受限。本文提出SAM3-I——SAM系列的指令跟随扩展版本,该模型在统一分割框架中整合了概念级定位与指令级推理能力。基于SAM3架构,SAM3-I引入指令感知级联适配机制,并配合专用对齐损失函数,渐进式地将表达性指令语义与SAM3的视觉语言表征对齐,在保持其强大概念召回能力的同时,实现对自然语言指令的直接解析。为实现指令跟随学习,我们构建了HMPL-Instruct——一个大规模指令中心数据集,系统化覆盖层级指令语义与多样化目标粒度。实验表明,SAM3-I在指代分割与推理分割任务中均取得优异性能,证明SAM3可被有效扩展以遵循复杂自然语言指令,且不牺牲其原有的概念驱动优势。代码与数据集开源地址:https://github.com/debby-0527/SAM3-I。

0
下载
关闭预览

相关内容

多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
Segment Anything模型的高效变体:综述
专知会员服务
27+阅读 · 2024年10月11日
《视频任意分割Segment Anything》系统性综述
专知会员服务
23+阅读 · 2024年8月19日
分割一切模型SAM的潜力与展望:综述
专知会员服务
55+阅读 · 2024年3月17日
《生物医学图像分割的基础模型》综述
专知会员服务
31+阅读 · 2024年1月18日
分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合
专知会员服务
53+阅读 · 2023年6月16日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
如何用TensorFlow和TF-Slim实现图像标注、分类与分割
北京思腾合力科技有限公司
21+阅读 · 2017年11月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
Segment Anything模型的高效变体:综述
专知会员服务
27+阅读 · 2024年10月11日
《视频任意分割Segment Anything》系统性综述
专知会员服务
23+阅读 · 2024年8月19日
分割一切模型SAM的潜力与展望:综述
专知会员服务
55+阅读 · 2024年3月17日
《生物医学图像分割的基础模型》综述
专知会员服务
31+阅读 · 2024年1月18日
分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合
专知会员服务
53+阅读 · 2023年6月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员