Multi-modal image fusion (MMIF) enhances the information content of the fused image by combining the unique as well as common features obtained from different modality sensor images, improving visualization, object detection, and many more tasks. In this work, we introduce an interpretable network for the MMIF task, named FNet, based on an $\ell_0$-regularized multi-modal convolutional sparse coding (MCSC) model. Specifically, for solving the $\ell_0$-regularized CSC problem, we design a learnable $\ell_0$-regularized sparse coding (LZSC) block in a principled manner through deep unfolding. Given different modality source images, FNet first separates the unique and common features from them using the LZSC block and then these features are combined to generate the final fused image. Additionally, we propose an $\ell_0$-regularized MCSC model for the inverse fusion process. Based on this model, we introduce an interpretable inverse fusion network named IFNet, which is utilized during FNet's training. Extensive experiments show that FNet achieves high-quality fusion results across eight different MMIF datasets. Furthermore, we show that FNet enhances downstream object detection \textcolor[rgb]{ 0, 0, 0}{and semantic segmentation} in visible-thermal image pairs. We have also visualized the intermediate results of FNet, which demonstrates the good interpretability of our network. Link for code and models: https://github.com/gargi884/FNet-MMIF.


翻译:多模态图像融合(MMIF)通过结合来自不同模态传感器图像获取的独特特征与共有特征,增强融合图像的信息含量,从而改善可视化、目标检测及更多任务。本文提出一种基于ℓ0正则化多模态卷积稀疏编码(MCSC)模型的可解释网络,命名为FNet,用于MMIF任务。具体而言,为求解ℓ0正则化CSC问题,我们通过深度展开以原理性方式设计了一个可学习的ℓ0正则化稀疏编码(LZSC)模块。给定不同模态的源图像,FNet首先利用LZSC模块从中分离出独特特征与共有特征,随后将这些特征融合以生成最终的融合图像。此外,我们提出了一个用于逆向融合过程的ℓ0正则化MCSC模型。基于该模型,我们引入了一个可解释的逆向融合网络IFNet,该网络在FNet训练过程中被使用。大量实验表明,FNet在八个不同的MMIF数据集上均实现了高质量的融合结果。进一步地,我们证明FNet能增强可见光-热成像图像对中的下游目标检测和语义分割性能。我们还可视化了FNet的中间结果,这证明了我们网络具有良好的可解释性。代码与模型链接:https://github.com/gargi884/FNet-MMIF。

0
下载
关闭预览

相关内容

面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关VIP内容
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员