Guided depth super-resolution (GDSR) is a multi-modal approach for depth map super-resolution that relies on a low-resolution depth map and a high-resolution RGB image to restore finer structural details. However, the misleading color and texture cues indicating depth discontinuities in RGB images often lead to artifacts and blurred depth boundaries in the generated depth map. We propose a solution that introduces global contextual semantic priors, generated from pretrained vision transformer token embeddings. Our approach to distilling semantic knowledge from pretrained token embeddings is motivated by their demonstrated effectiveness in related monocular depth estimation tasks. We introduce a Guided Token Attention (GTA) module, which iteratively aligns encoded RGB spatial features with depth encodings, using cross-attention for selectively injecting global semantic context extracted from different layers of a pretrained vision transformer. Additionally, we present an architecture called Neural Attention for Implicit Multi-token Alignment (NAIMA), which integrates DINOv2 with GTA blocks for a semantics-aware GDSR. Our proposed architecture, with its ability to distill semantic knowledge, achieves significant improvements over existing methods across multiple scaling factors and datasets.


翻译:引导深度超分辨率(GDSR)是一种多模态深度图超分辨率方法,它依赖低分辨率深度图和高分辨率RGB图像来恢复更精细的结构细节。然而,RGB图像中指示深度不连续性的误导性颜色和纹理线索,常导致生成的深度图中出现伪影和模糊的深度边界。我们提出一种解决方案,引入基于预训练视觉变换器令牌嵌入生成的全局上下文语义先验。我们从预训练令牌嵌入中提炼语义知识的方法,源于其在相关单目深度估计任务中展现的有效性。我们引入一种引导式令牌注意力(GTA)模块,该模块通过交叉注意力机制,迭代地将编码后的RGB空间特征与深度编码对齐,从而选择性注入从预训练视觉变换器不同层提取的全局语义上下文。此外,我们提出一种名为隐式多令牌对齐神经注意力(NAIMA)的架构,该架构将DINOv2与GTA模块集成,实现语义感知的GDSR。所提架构凭借其提炼语义知识的能力,在多个缩放因子和数据集上均取得了相较于现有方法的显著改进。

0
下载
关闭预览

相关内容

深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
遥感图像超分辨率技术进展:综合综述
专知会员服务
12+阅读 · 2025年5月31日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
基于深度学习的视频超分辨率重构进展综述
专知会员服务
19+阅读 · 2022年3月7日
专知会员服务
41+阅读 · 2021年9月30日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 26分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 28分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 40分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员