InstructSAM: Segment Any Instance with Any Instructions - 专知论文

会员服务 ·

0

示例 · 设计 · MoDELS · INTERACT · 可约的 ·

InstructSAM: Segment Any Instance with Any Instructions

翻译：InstructSAM：遵循任意指令分割任意实例

Yuqian Yuan,Wentong Li,Zhaocheng Li,Yutong Lin,Juncheng Li,Siliang Tang,Jun Xiao,Yueting Zhuang,Wenqiao Zhang

from arxiv, 19 pages, 8 figures

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.

翻译：本文提出InstructSAM，一个统一且精简的框架，用于在任意指令下进行多实例分割。我们将指令驱动的实例分割形式化为集合结构化的查询预测问题，并设计了一个显式的推理到实例的查询接口，该接口优雅地桥接了视觉语言模型与SAM3。具体而言，一组可学习的实例查询被注入视觉语言模型，并与指令及视觉信息进行上下文融合，使每个查询充当实例感知的槽位。混合注意力机制进一步促进这些查询、视觉令牌和指令令牌之间的交互，从而改善实例枚举并减少重复预测。由此产生的基于大语言模型的查询被投影到SAM3的检测器查询空间，以在单次前向传播中驱动精确的多实例分割。该设计在不修改SAM3核心架构的前提下，赋予其高级指令理解、组合推理以及实例级集合预测能力。为支持训练与评估，我们进一步构建了Inst2Seg——一个高质量、大规模、基于指令的实例分割数据集与基准，将自由形式的指令与实例级掩码相关联。大量实验表明，仅2B参数规模的InstructSAM在复杂指令驱动及短语级指代分割基准上均取得优异表现，优于此前端到端方法及SAM3的智能体流水线，同时实现了高效的单次多实例预测。

0

相关内容

Segment Anything模型的高效变体：综述

Segment Anything模型的高效变体：综述

专知会员服务

27+阅读 · 2024年10月11日

《视频任意分割Segment Anything》系统性综述

《视频任意分割Segment Anything》系统性综述

专知会员服务

23+阅读 · 2024年8月19日

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

专知会员服务

53+阅读 · 2023年6月16日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知会员服务

20+阅读 · 2022年3月21日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

【CVPR2020-香港中文大学】PointGroup:用于3D实例分割的双设置点分组，PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

【CVPR2020-香港中文大学】PointGroup:用于3D实例分割的双设置点分组，PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

专知会员服务

12+阅读 · 2020年4月6日

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

英伟达NVIDIA中国

11+阅读 · 2019年4月26日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

一文概览用于图像分割的CNN

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多特征与水平集融合的遥感图像分割算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary Segmentation

Arxiv

0+阅读 · 6月15日

SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation

Arxiv

0+阅读 · 6月14日

RIDGECUT: Learning Graph Partitioning with Rings and Wedges

Arxiv

0+阅读 · 6月13日

WildIFEval: Instruction Following in the Wild

Arxiv

0+阅读 · 6月11日

DIMOS: Disentangling Instance-level Moving Object Segmentation

Arxiv

0+阅读 · 6月11日

In-Context Multiple Instance Learning

Arxiv

0+阅读 · 6月4日

Visual Instruction Tuning Aligns Modalities through Abstraction

Arxiv

0+阅读 · 6月2日

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Arxiv

0+阅读 · 5月31日

SemStruct: Contextualizing Semantic Embeddings with Structural Information for Schema Matching

Arxiv

0+阅读 · 5月29日

Instruction Tuning for Large Language Models: A Survey

Instruction Tuning for Large Language Models: A Survey

Arxiv

15+阅读 · 2023年8月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

Segment Anything模型的高效变体：综述

Segment Anything模型的高效变体：综述

专知会员服务

27+阅读 · 2024年10月11日

《视频任意分割Segment Anything》系统性综述

《视频任意分割Segment Anything》系统性综述

专知会员服务

23+阅读 · 2024年8月19日

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

专知会员服务

53+阅读 · 2023年6月16日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知会员服务

20+阅读 · 2022年3月21日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

【CVPR2020-香港中文大学】PointGroup:用于3D实例分割的双设置点分组，PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

【CVPR2020-香港中文大学】PointGroup:用于3D实例分割的双设置点分组，PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

专知会员服务

12+阅读 · 2020年4月6日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

DLI精选课程 | 用TensorRT实现视频分析部署（内文有礼）

英伟达NVIDIA中国

11+阅读 · 2019年4月26日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

一文概览用于图像分割的CNN

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

相关论文

ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary Segmentation

Arxiv

0+阅读 · 6月15日

SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation

Arxiv

0+阅读 · 6月14日

RIDGECUT: Learning Graph Partitioning with Rings and Wedges

Arxiv

0+阅读 · 6月13日

WildIFEval: Instruction Following in the Wild

Arxiv

0+阅读 · 6月11日

DIMOS: Disentangling Instance-level Moving Object Segmentation

Arxiv

0+阅读 · 6月11日

In-Context Multiple Instance Learning

Arxiv

0+阅读 · 6月4日

Visual Instruction Tuning Aligns Modalities through Abstraction

Arxiv

0+阅读 · 6月2日

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Arxiv

0+阅读 · 5月31日

SemStruct: Contextualizing Semantic Embeddings with Structural Information for Schema Matching

Arxiv

0+阅读 · 5月29日

Instruction Tuning for Large Language Models: A Survey

Instruction Tuning for Large Language Models: A Survey

Arxiv

15+阅读 · 2023年8月21日

相关基金

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多特征与水平集融合的遥感图像分割算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员