FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection - 专知论文

会员服务 ·

0

模态 · 红外 · 蒸馏 · 跨模态 · 知识 ·

FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection

翻译：FreqKD：面向红外目标检测的频率解耦跨模态知识蒸馏

Keval Thaker,Venkatraman Narayanan,Abdalmalek Aburaddaha,Samir A. Rawashdeh

Transfer learning from large-scale RGB foundation models to infrared (IR) imagery through knowledge distillation (KD) remains challenging due to fundamental differences in image formation physics. We investigate the spectral structure of the RGB--IR modality gap and observe that feature divergence is not uniform across spatial frequencies: low-frequency components (shape, layout) show greater cross-modal alignment than high-frequency components (texture, fine edges), which reflect modality-specific characteristics. Based on this analysis, we propose FreqKD, a frequency-decoupled distillation framework that applies asymmetric supervision adapted to each band's cross-modal consistency. The method employs strict mean squared error (MSE) on the low-frequency band to preserve shared structural information and a relaxed log-MSE loss (weighted at 0.1) on the high-frequency band to provide edge guidance while tolerating texture differences. Spectral divergence analysis on 500 paired samples shows that high-frequency divergence exceeds low-frequency divergence by a factor of 2.4x on average across all analysed transformer layers. On KAIST multispectral pedestrian detection, FreqKD achieves 64.1 mAP50, improving 2.4 points over the DINOv2 baseline. The learned representation transfers across datasets (FLIR ADAS, +2.1 mAP50), tasks (MFNet segmentation, +1.85 mean intersection-over-union), and architectures (ResNet-50, +1.0 mAP50). Code is available at: https://anonymous.4open.science/r/freq_decoupled_kd-5E5A

翻译：通过知识蒸馏从大规模RGB基础模型迁移学习到红外图像仍面临挑战，根本原因在于图像形成物理机制的差异。本文研究了RGB与红外模态间隙的频谱结构，发现特征差异在不同空间频率上并非均匀分布：低频分量（形状、布局）的跨模态对齐程度高于反映模态特异性的高频分量（纹理、精细边缘）。基于这一分析，我们提出FreqKD——一种频率解耦蒸馏框架，针对每个频带的跨模态一致性施加非对称监督。该方法在低频带上采用严格均方误差以保留共享结构信息，在高频带上采用松弛的对数均方误差损失（权重设为0.1），在容忍纹理差异的同时提供边缘引导。基于500对配对样本的频谱差异分析表明，在所有分析的Transformer层中，高频差异平均超过低频差异2.4倍。在KAIST多光谱行人检测任务上，FreqKD达到64.1 mAP50，较DINOv2基线提升2.4个点。所学表征可跨数据集（FLIR ADAS，+2.1 mAP50）、跨任务（MFNet分割，平均交并比+1.85）及跨架构（ResNet-50，+1.0 mAP50）迁移。代码开源地址：https://anonymous.4open.science/r/freq_decoupled_kd-5E5A

0

相关内容

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

「多模态遥感图像匹配方法」最新研究综述

「多模态遥感图像匹配方法」最新研究综述

专知会员服务

33+阅读 · 2023年4月7日

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

专知会员服务

14+阅读 · 2022年3月28日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

[ICCV2021]自适应多模态选取框架用于视频理解

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

18+阅读 · 2021年10月30日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

编辑推荐 | 红外弱小目标检测算法综述

编辑推荐 | 红外弱小目标检测算法综述

中国图象图形学报

21+阅读 · 2020年10月12日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于多帧时空信息协同理解的自然感彩色红外成像方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于并行压缩感知理论的红外夜天文图像超分辨率成像方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

傅里叶变换红外光谱数据超分辨率处理关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

热红外遥感图像模拟中异质异构地表像元辐射计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息约束的红外光谱反演污染气体云团方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于新型硅基波导结构的中红外波段频谱变换研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Frequency-Division Multiplexed CV-QKD System

Arxiv

0+阅读 · 6月16日

TaFD: Threat-Aware Frequency Decoupling for Adversarial Robustness against Heterogeneous Attacks

Arxiv

0+阅读 · 6月16日

FATE: Pillar Encoding and Frequency-Aware Training for Event-Based Object Detection

Arxiv

0+阅读 · 6月15日

FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

Arxiv

0+阅读 · 6月15日

A comparative and critical study of EEGNet for fNIRS-driven cognitive load classification

Arxiv

0+阅读 · 6月15日

TUNI: Unifying Pre-training and Fine-tuning with Modality-Aware Mutual Learning and Rectification for RGB-T Semantic Segmentation

Arxiv

0+阅读 · 6月15日

Decoupled Motion Representation Learning for Moving Infrared Small Target Detection

Arxiv

0+阅读 · 6月13日

FEMOT: Multi-Object Tracking using Frame and Event Cameras

Arxiv

0+阅读 · 6月12日

MFEN:Multi-Frequency Expert Network for Visible-Infrared Person Re-ID

Arxiv

0+阅读 · 6月10日

SatFusion: A Unified Framework for Enhancing Remote Sensing Images via Multi-Frame and Multi-Source Images Fusion

Arxiv

0+阅读 · 4月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

14+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

「多模态遥感图像匹配方法」最新研究综述

「多模态遥感图像匹配方法」最新研究综述

专知会员服务

33+阅读 · 2023年4月7日

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

专知会员服务

14+阅读 · 2022年3月28日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

[ICCV2021]自适应多模态选取框架用于视频理解

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

18+阅读 · 2021年10月30日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

编辑推荐 | 红外弱小目标检测算法综述

编辑推荐 | 红外弱小目标检测算法综述

中国图象图形学报

21+阅读 · 2020年10月12日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Frequency-Division Multiplexed CV-QKD System

Arxiv

0+阅读 · 6月16日

TaFD: Threat-Aware Frequency Decoupling for Adversarial Robustness against Heterogeneous Attacks

Arxiv

0+阅读 · 6月16日

FATE: Pillar Encoding and Frequency-Aware Training for Event-Based Object Detection

Arxiv

0+阅读 · 6月15日

FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

Arxiv

0+阅读 · 6月15日

A comparative and critical study of EEGNet for fNIRS-driven cognitive load classification

Arxiv

0+阅读 · 6月15日

TUNI: Unifying Pre-training and Fine-tuning with Modality-Aware Mutual Learning and Rectification for RGB-T Semantic Segmentation

Arxiv

0+阅读 · 6月15日

Decoupled Motion Representation Learning for Moving Infrared Small Target Detection

Arxiv

0+阅读 · 6月13日

FEMOT: Multi-Object Tracking using Frame and Event Cameras

Arxiv

0+阅读 · 6月12日

MFEN:Multi-Frequency Expert Network for Visible-Infrared Person Re-ID

Arxiv

0+阅读 · 6月10日

SatFusion: A Unified Framework for Enhancing Remote Sensing Images via Multi-Frame and Multi-Source Images Fusion

Arxiv

0+阅读 · 4月7日

相关基金

基于多帧时空信息协同理解的自然感彩色红外成像方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于并行压缩感知理论的红外夜天文图像超分辨率成像方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

傅里叶变换红外光谱数据超分辨率处理关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

热红外遥感图像模拟中异质异构地表像元辐射计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息约束的红外光谱反演污染气体云团方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于新型硅基波导结构的中红外波段频谱变换研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员