Transfer learning from large-scale RGB foundation models to infrared (IR) imagery through knowledge distillation (KD) remains challenging due to fundamental differences in image formation physics. We investigate the spectral structure of the RGB--IR modality gap and observe that feature divergence is not uniform across spatial frequencies: low-frequency components (shape, layout) show greater cross-modal alignment than high-frequency components (texture, fine edges), which reflect modality-specific characteristics. Based on this analysis, we propose FreqKD, a frequency-decoupled distillation framework that applies asymmetric supervision adapted to each band's cross-modal consistency. The method employs strict mean squared error (MSE) on the low-frequency band to preserve shared structural information and a relaxed log-MSE loss (weighted at 0.1) on the high-frequency band to provide edge guidance while tolerating texture differences. Spectral divergence analysis on 500 paired samples shows that high-frequency divergence exceeds low-frequency divergence by a factor of 2.4x on average across all analysed transformer layers. On KAIST multispectral pedestrian detection, FreqKD achieves 64.1 mAP50, improving 2.4 points over the DINOv2 baseline. The learned representation transfers across datasets (FLIR ADAS, +2.1 mAP50), tasks (MFNet segmentation, +1.85 mean intersection-over-union), and architectures (ResNet-50, +1.0 mAP50). Code is available at: https://anonymous.4open.science/r/freq_decoupled_kd-5E5A


翻译:通过知识蒸馏从大规模RGB基础模型迁移学习到红外图像仍面临挑战,根本原因在于图像形成物理机制的差异。本文研究了RGB与红外模态间隙的频谱结构,发现特征差异在不同空间频率上并非均匀分布:低频分量(形状、布局)的跨模态对齐程度高于反映模态特异性的高频分量(纹理、精细边缘)。基于这一分析,我们提出FreqKD——一种频率解耦蒸馏框架,针对每个频带的跨模态一致性施加非对称监督。该方法在低频带上采用严格均方误差以保留共享结构信息,在高频带上采用松弛的对数均方误差损失(权重设为0.1),在容忍纹理差异的同时提供边缘引导。基于500对配对样本的频谱差异分析表明,在所有分析的Transformer层中,高频差异平均超过低频差异2.4倍。在KAIST多光谱行人检测任务上,FreqKD达到64.1 mAP50,较DINOv2基线提升2.4个点。所学表征可跨数据集(FLIR ADAS,+2.1 mAP50)、跨任务(MFNet分割,平均交并比+1.85)及跨架构(ResNet-50,+1.0 mAP50)迁移。代码开源地址:https://anonymous.4open.science/r/freq_decoupled_kd-5E5A

0
下载
关闭预览

相关内容

「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
18+阅读 · 2021年10月30日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
20+阅读 · 2021年3月2日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
编辑推荐 | 红外弱小目标检测算法综述
中国图象图形学报
21+阅读 · 2020年10月12日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
18+阅读 · 2021年10月30日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
20+阅读 · 2021年3月2日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员