Text-Based Person Search (TBPS) holds unique value in real-world surveillance bridging visual perception and language understanding, yet current paradigms utilizing pre-training models often fail to transfer effectively to complex open-world scenarios. The reliance on "Passive Observation" leads to multifaceted spurious correlations and spatial semantic misalignment, causing a lack of robustness against distribution shifts. To fundamentally resolve these defects, this paper proposes ICON (Invariant Counterfactual Optimization with Neuro-symbolic priors), a framework integrating causal and topological priors. First, we introduce Rule-Guided Spatial Intervention to strictly penalize sensitivity to bounding box noise, forcibly severing location shortcuts to achieve geometric invariance. Second, Counterfactual Context Disentanglement is implemented via semantic-driven background transplantation, compelling the model to ignore background interference for environmental independence. Then, we employ Saliency-Driven Semantic Regularization with adaptive masking to resolve local saliency bias and guarantee holistic completeness. Finally, Neuro-Symbolic Topological Alignment utilizes neuro-symbolic priors to constrain feature matching, ensuring activated regions are topologically consistent with human structural logic. Experimental results demonstrate that ICON not only maintains leading performance on standard benchmarks but also exhibits exceptional robustness against occlusion, background interference, and localization noise. This approach effectively advances the field by shifting from fitting statistical co-occurrences to learning causal invariance.


翻译:文本驱动行人检索(TBPS)在连接视觉感知与语言理解的实际监控场景中具有独特价值,但当前利用预训练模型的范式往往难以有效迁移至复杂的开放世界场景。对“被动观测”的依赖导致了多方面的伪相关性与空间语义错位,致使模型缺乏对分布偏移的鲁棒性。为从根本上解决这些缺陷,本文提出ICON(基于神经符号先验的不变反事实优化),一种融合因果与拓扑先验的框架。首先,我们引入规则引导的空间干预,以严格惩罚模型对边界框噪声的敏感性,强制切断位置捷径以实现几何不变性。其次,通过语义驱动的背景移植实现反事实上下文解耦,迫使模型忽略背景干扰以获得环境独立性。接着,我们采用基于显著性的语义正则化与自适应掩码,以解决局部显著性偏差并保证整体完整性。最后,神经符号拓扑对齐利用神经符号先验约束特征匹配,确保激活区域与人体结构逻辑在拓扑上保持一致。实验结果表明,ICON不仅在标准基准上保持领先性能,而且对遮挡、背景干扰与定位噪声表现出卓越的鲁棒性。该方法通过从拟合统计共现转向学习因果不变性,有效推动了该领域的发展。

0
下载
关闭预览

相关内容

标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2025年2月6日
专知会员服务
11+阅读 · 2021年10月3日
基于深度学习的行人检测方法综述
专知会员服务
71+阅读 · 2021年4月14日
【深度】行人检测算法
GAN生成式对抗网络
29+阅读 · 2018年6月3日
干货!一文读懂行人检测算法
全球人工智能
11+阅读 · 2018年5月31日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Picture of Agentic Search
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2025年2月6日
专知会员服务
11+阅读 · 2021年10月3日
基于深度学习的行人检测方法综述
专知会员服务
71+阅读 · 2021年4月14日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员