NAIMA: Semantics Aware RGB Guided Depth Super-Resolution - 专知论文

会员服务 ·

0

超分 · 令牌 · 超分辨率 · 深度图 · 预训练 ·

NAIMA: Semantics Aware RGB Guided Depth Super-Resolution

翻译：NAIMA：语义感知的RGB引导深度超分辨率

Tayyab Nasir,Daochang Liu,Ajmal Mian

Guided depth super-resolution (GDSR) is a multi-modal approach for depth map super-resolution that relies on a low-resolution depth map and a high-resolution RGB image to restore finer structural details. However, the misleading color and texture cues indicating depth discontinuities in RGB images often lead to artifacts and blurred depth boundaries in the generated depth map. We propose a solution that introduces global contextual semantic priors, generated from pretrained vision transformer token embeddings. Our approach to distilling semantic knowledge from pretrained token embeddings is motivated by their demonstrated effectiveness in related monocular depth estimation tasks. We introduce a Guided Token Attention (GTA) module, which iteratively aligns encoded RGB spatial features with depth encodings, using cross-attention for selectively injecting global semantic context extracted from different layers of a pretrained vision transformer. Additionally, we present an architecture called Neural Attention for Implicit Multi-token Alignment (NAIMA), which integrates DINOv2 with GTA blocks for a semantics-aware GDSR. Our proposed architecture, with its ability to distill semantic knowledge, achieves significant improvements over existing methods across multiple scaling factors and datasets.

翻译：引导深度超分辨率（GDSR）是一种多模态深度图超分辨率方法，它依赖低分辨率深度图和高分辨率RGB图像来恢复更精细的结构细节。然而，RGB图像中指示深度不连续性的误导性颜色和纹理线索，常导致生成的深度图中出现伪影和模糊的深度边界。我们提出一种解决方案，引入基于预训练视觉变换器令牌嵌入生成的全局上下文语义先验。我们从预训练令牌嵌入中提炼语义知识的方法，源于其在相关单目深度估计任务中展现的有效性。我们引入一种引导式令牌注意力（GTA）模块，该模块通过交叉注意力机制，迭代地将编码后的RGB空间特征与深度编码对齐，从而选择性注入从预训练视觉变换器不同层提取的全局语义上下文。此外，我们提出一种名为隐式多令牌对齐神经注意力（NAIMA）的架构，该架构将DINOv2与GTA模块集成，实现语义感知的GDSR。所提架构凭借其提炼语义知识的能力，在多个缩放因子和数据集上均取得了相较于现有方法的显著改进。

0

相关内容

深度学习视频超分辨率综述

深度学习视频超分辨率综述

专知会员服务

14+阅读 · 2025年6月5日

遥感图像超分辨率技术进展：综合综述

遥感图像超分辨率技术进展：综合综述

专知会员服务

12+阅读 · 2025年5月31日

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

专知会员服务

25+阅读 · 2024年11月21日

扩散模型图像超分辨率等综述

扩散模型图像超分辨率等综述

专知会员服务

25+阅读 · 2024年1月2日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

基于深度学习的视频超分辨率重构进展综述

基于深度学习的视频超分辨率重构进展综述

专知会员服务

19+阅读 · 2022年3月7日

港中文《深度学习单图像超分辨率》综述论文

专知会员服务

41+阅读 · 2021年9月30日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

专知会员服务

60+阅读 · 2019年11月16日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

人工智能前沿讲习班

15+阅读 · 2019年2月27日

深度学习图像超分辨率最新综述：从模型到应用

深度学习图像超分辨率最新综述：从模型到应用

炼数成金订阅号

65+阅读 · 2019年2月20日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

宽色域显示设备的高质量图像复现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations

Arxiv

0+阅读 · 6月15日

Ultra Flash: Scaling Real-Time Streaming Video Generation to High Resolutions

Arxiv

0+阅读 · 6月15日

TUNI: Unifying Pre-training and Fine-tuning with Modality-Aware Mutual Learning and Rectification for RGB-T Semantic Segmentation

Arxiv

0+阅读 · 6月15日

RefGC-SR$^2$: Reference-guided Generated Content Super-Resolution and Refinement

Arxiv

0+阅读 · 6月13日

Vanishing Depth: Training Generalized Depth Adapters with Sinusoidal Depth Preprocessing for Pretrained RGB Encoders

Arxiv

0+阅读 · 6月12日

HiMat: DiT-based Ultra-High Resolution SVBRDF Generation

Arxiv

0+阅读 · 6月6日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 5月29日

CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception

Arxiv

0+阅读 · 5月22日

Model-agnostic super-resolution in high dimensions

Arxiv

0+阅读 · 5月20日

Fast Image Super-Resolution via Consistency Rectified Flow

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 26分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 28分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 40分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 51分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 刚刚

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

深度学习视频超分辨率综述

深度学习视频超分辨率综述

专知会员服务

14+阅读 · 2025年6月5日

遥感图像超分辨率技术进展：综合综述

遥感图像超分辨率技术进展：综合综述

专知会员服务

12+阅读 · 2025年5月31日

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

专知会员服务

25+阅读 · 2024年11月21日

扩散模型图像超分辨率等综述

扩散模型图像超分辨率等综述

专知会员服务

25+阅读 · 2024年1月2日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

基于深度学习的视频超分辨率重构进展综述

基于深度学习的视频超分辨率重构进展综述

专知会员服务

19+阅读 · 2022年3月7日

港中文《深度学习单图像超分辨率》综述论文

专知会员服务

41+阅读 · 2021年9月30日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

专知会员服务

60+阅读 · 2019年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

人工智能前沿讲习班

15+阅读 · 2019年2月27日

深度学习图像超分辨率最新综述：从模型到应用

深度学习图像超分辨率最新综述：从模型到应用

炼数成金订阅号

65+阅读 · 2019年2月20日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations

Arxiv

0+阅读 · 6月15日

Ultra Flash: Scaling Real-Time Streaming Video Generation to High Resolutions

Arxiv

0+阅读 · 6月15日

TUNI: Unifying Pre-training and Fine-tuning with Modality-Aware Mutual Learning and Rectification for RGB-T Semantic Segmentation

Arxiv

0+阅读 · 6月15日

RefGC-SR$^2$: Reference-guided Generated Content Super-Resolution and Refinement

Arxiv

0+阅读 · 6月13日

Vanishing Depth: Training Generalized Depth Adapters with Sinusoidal Depth Preprocessing for Pretrained RGB Encoders

Arxiv

0+阅读 · 6月12日

HiMat: DiT-based Ultra-High Resolution SVBRDF Generation

Arxiv

0+阅读 · 6月6日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 5月29日

CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception

Arxiv

0+阅读 · 5月22日

Model-agnostic super-resolution in high dimensions

Arxiv

0+阅读 · 5月20日

Fast Image Super-Resolution via Consistency Rectified Flow

Arxiv

0+阅读 · 5月12日

相关基金

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

宽色域显示设备的高质量图像复现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员