Reasoning segmentation requires models to ground complex, implicit textual queries into precise pixel-level masks. Existing approaches rely on a single segmentation token $\texttt{<SEG>}$, whose hidden state implicitly encodes both semantic reasoning and spatial localization, limiting the model's ability to explicitly disentangle what to segment from where to segment. We introduce AnchorSeg, which reformulates reasoning segmentation as a structured conditional generation process over image tokens, conditioned on language grounded query banks. Instead of compressing all semantic reasoning and spatial localization into a single embedding, AnchorSeg constructs an ordered sequence of query banks: latent reasoning tokens that capture intermediate semantic states, and a segmentation anchor token that provides explicit spatial grounding. We model spatial conditioning as a factorized distribution over image tokens, where the anchor query determines localization signals while contextual queries provide semantic modulation. To bridge token-level predictions and pixel-level supervision, we propose Token--Mask Cycle Consistency (TMCC), a bidirectional training objective that enforces alignment across resolutions. By explicitly decoupling spatial grounding from semantic reasoning through structured language grounded query banks, AnchorSeg achieves state-of-the-art results on ReasonSeg test set (67.7\% gIoU and 68.1\% cIoU). All code and models are publicly available at https://github.com/rui-qian/AnchorSeg.


翻译:[translated abstract in Chinese] 推理分割要求模型将复杂、隐式的文本查询精确定位到像素级掩码。现有方法依赖单个分割令牌 $\texttt{<SEG>}$,其隐藏状态隐式地编码了语义推理与空间定位,限制了模型显式解耦"分割什么"与"何处分割"的能力。我们提出AnchorSeg,它将推理分割重构为基于语言引导查询库的结构化条件生成过程,作用于图像令牌。AnchorSeg并非将所有语义推理和空间定位压缩至单个嵌入,而是构建有序的查询库序列:捕获中间语义状态的潜在推理令牌,以及提供显式空间定位的分割锚点令牌。我们将空间条件建模为图像令牌上的因式分解分布,其中锚点查询确定定位信号,而上下文查询提供语义调制。为桥接令牌级预测与像素级监督,我们提出令牌—掩膜循环一致性(TMCC),这是一种双向训练目标,强制跨分辨率对齐。通过结构化语言引导查询库显式解耦空间定位与语义推理,AnchorSeg在ReasonSeg测试集上取得了最优结果(67.7% gIoU和68.1% cIoU)。所有代码与模型已公开于https://github.com/rui-qian/AnchorSeg。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
专知会员服务
47+阅读 · 2020年10月5日
下载 | 最全中文文本分类模型库,上手即用
机器学习算法与Python学习
31+阅读 · 2019年10月17日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
专知会员服务
47+阅读 · 2020年10月5日
相关资讯
下载 | 最全中文文本分类模型库,上手即用
机器学习算法与Python学习
31+阅读 · 2019年10月17日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员