Multimodal image fusion aims to integrate complementary information from different modalities into a fused image that preserves rich local details while maintaining globally consistent appearance. Existing approaches build shared representations on 2D feature grids, which excel at modeling local structures but offer limited leverage over image-level global appearance factors. To balance these objectives, we introduce a compact 1D token interface based on a frozen pretrained image tokenizer for modeling non-local appearance/base factors. Rather than using the tokenizer as a reconstruction backbone, our design uses the 1D token space as a global carrier while retaining the 2D spatial pathway for local structure restoration. Specifically, we introduce Selective Token Editing (STE), which sparsely updates/replaces a small set of critical tokens, providing a lightweight mechanism to steer global appearance coherence while keeping the fusion backbone unchanged and avoiding extra losses. Experiments on four commonly used benchmarks show that our method achieves the best overall performance, with consistent, multi-metric improvements in both global coherence and local fidelity. Project page: https://zju-xyc.github.io/1D-Fusion-Project-Page/


翻译:多模态图像融合旨在将不同模态的互补信息整合到一幅融合图像中,该图像既能保留丰富的局部细节,又能保持全局外观的一致性。现有方法在二维特征网格上构建共享表征,这类方法擅长建模局部结构,但在控制图像级全局外观因素方面能力有限。为平衡上述目标,我们引入了一种基于冻结预训练图像分词器的紧凑一维标记接口,用于建模非局部外观/基础因素。我们的设计并非将分词器用作重建主干,而是将一维标记空间作为全局载体,同时保留二维空间路径用于局部结构重建。具体而言,我们提出选择性标记编辑(STE),该方法稀疏地更新/替换少量关键标记,提供一种轻量级机制来引导全局外观一致性,同时保持融合主干不变并避免额外损失。在四个常用基准数据集上的实验表明,我们的方法在全局一致性和局部保真度方面均取得了最佳整体性能,且实现了持续的多指标提升。项目页面:https://zju-xyc.github.io/1D-Fusion-Project-Page/

0
下载
关闭预览

相关内容

深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
一文详解50多种多模态图像融合方法
专知会员服务
48+阅读 · 2024年4月6日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 6月1日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
一文详解50多种多模态图像融合方法
专知会员服务
48+阅读 · 2024年4月6日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员