In vision-language models (VLMs), misalignment between textual descriptions and visual coordinates often induces hallucinations. This issue becomes particularly severe in dense prediction tasks such as spatial-temporal video grounding (STVG). Prior approaches typically focus on enhancing visual-textual alignment or attaching auxiliary decoders. However, these strategies inevitably introduce additional trainable modules, leading to significant annotation costs and computational overhead. In this work, we propose a novel visual prompting paradigm that avoids the difficult problem of aligning coordinates across modalities. Specifically, we reformulate per-frame coordinate prediction as a compact instance-level identification problem by assigning each object a unique, temporally consistent ID. These IDs are embedded into the video as visual prompts, providing explicit and interpretable inputs to the VLMs. Furthermore, we introduce STVG-R1, the first reinforcement learning framework for STVG, which employs a task-driven reward to jointly optimize temporal accuracy, spatial consistency, and structural format regularization. Extensive experiments on six benchmarks demonstrate the effectiveness of our approach. STVG-R1 surpasses the baseline Qwen2.5-VL-7B by a remarkable margin of 20.9% on m_IoU on the HCSTVG-v2 benchmark, establishing a new state of the art (SOTA). Surprisingly, STVG-R1 also exhibits strong zero-shot generalization to multi-object referring video object segmentation tasks, achieving a SOTA 47.3% J&F on MeViS.


翻译:在视觉语言模型(VLMs)中,文本描述与视觉坐标之间的错位常导致幻觉问题。该问题在时空视频定位(STVG)等密集预测任务中尤为严重。现有方法通常侧重于增强视觉-文本对齐或附加辅助解码器。然而,这些策略不可避免地引入了额外的可训练模块,导致显著的标注成本和计算开销。本文提出一种新颖的视觉提示范式,避免了跨模态坐标对齐的难题。具体而言,我们将逐帧坐标预测重新表述为紧凑的实例级识别问题,为每个对象分配一个唯一且时间一致的ID。这些ID作为视觉提示嵌入视频中,为VLMs提供显式且可解释的输入。此外,我们提出了首个用于STVG的强化学习框架STVG-R1,其采用任务驱动的奖励机制,联合优化时间准确性、空间一致性和结构格式正则化。在六个基准测试上的大量实验证明了我们方法的有效性。在HCSTVG-v2基准测试中,STVG-R1在m_IoU指标上显著超越基线模型Qwen2.5-VL-7B达20.9%,创造了新的最优性能(SOTA)。值得注意的是,STVG-R1在多对象指代视频目标分割任务中也展现出强大的零样本泛化能力,在MeViS数据集上达到了47.3%的J&F SOTA指标。

0
下载
关闭预览

相关内容

高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
基于文本的3D视觉定位综述:要素、最新进展与未来方向
【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展
专知会员服务
21+阅读 · 2024年3月9日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
27+阅读 · 2021年3月4日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员