RGB-Thermal (T) crowd counting aims to integrate visible-spectrum and thermal infrared information to improve the robustness of crowd density estimation in complex scenes. Although existing studies generally improve counting accuracy through cross-modal feature fusion, most current methods rely on implicit cross-modal fusion strategies and lack explicit modeling of local spatial discrepancies as well as fine-grained characterization of modality reliability at the positional level, thereby limiting the accuracy and interpretability of the fusion process. To address these issues, this paper proposes a two-stage fusion framework, RACANet, a Reliability-Aware Crowd Anchor Network for RGB-T crowd counting. First, we introduce a lightweight cross-modal alignment pretraining stage, which explicitly learns cross-modal semantic correspondences through crowd-prior supervision and local bidirectional soft matching. Then, based on the priors learned during pretraining, a Local Anchor Fusion Module (LAFM) is introduced in the formal training stage. This module generates local semantic anchors by aggregating features from highly reliable regions and further enables adaptive pixel-level feature redistribution with a local attention mechanism. In addition, we propose a discrepancy-aware consistency constraint to dynamically coordinate the reliability of regions where modal representations are consistent. Experiments conducted on two widely used benchmark datasets, RGBT-CC and Drone-RGBT, demonstrate that RACANet outperforms existing methods. The anonymous code is available at https://anonymous.4open.science/r/RACANet-9985.


翻译:RGB-热红外(RGB-T)人群计数旨在融合可见光与热红外信息,以提升复杂场景下人群密度估计的鲁棒性。尽管现有研究通常通过跨模态特征融合提高计数精度,但大多数方法依赖隐式跨模态融合策略,缺乏对局部空间差异的显式建模以及对位置层面模态可靠性的细粒度刻画,从而限制了融合过程的准确性和可解释性。针对上述问题,本文提出一种两阶段融合框架RACANet,即面向RGB-T人群计数的可靠性感知人群锚点网络。首先,我们引入轻量级跨模态对齐预训练阶段,通过人群先验监督和局部双向软匹配显式学习跨模态语义对应关系。其次,基于预训练阶段习得的先验,在正式训练阶段引入局部锚点融合模块(LAFM)。该模块通过聚合高可靠性区域的特征生成局部语义锚点,并进一步利用局部注意力机制实现自适应逐像素特征重分配。此外,我们提出差异感知一致性约束,以动态协调模态表示一致区域的可靠性。在RGBT-CC和Drone-RGBT两个广泛使用的基准数据集上的实验表明,RACANet优于现有方法。匿名代码已公开于https://anonymous.4open.science/r/RACANet-9985。

0
下载
关闭预览

相关内容

【AAAI2022】基于属性的渐进融合网络的RGBT跟踪
专知会员服务
22+阅读 · 2022年1月8日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【AAAI2022】基于属性的渐进融合网络的RGBT跟踪
专知会员服务
22+阅读 · 2022年1月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员