PromptDepthAnything++: Accurate 4K Metric Depth Estimation via Pattern-Agnostic Prompting - 专知论文

会员服务 ·

0

度量 · 深度估计 · 设计 · 深度基础模型 · 大模型 ·

PromptDepthAnything++: Accurate 4K Metric Depth Estimation via Pattern-Agnostic Prompting

翻译：PromptDepthAnything++：通过模式无关提示实现精确的4K度量深度估计

Haotong Lin,Sida Peng,Qinglin Yang,Peishan Yang,Jiaming Sun,Ruizhen Hu,Kai Xu,Hujun Bao,Bingyi Kang,Xiaowei Zhou

from arxiv, Project page: https://PromptDA.github.io/

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. To further extend our method to work with any prompt depth points, we propose a new prompting mechanism, which serializes the input depth points into tokens and uses self-attention to enhance image tokens from depth foundation models. Our approach sets new state-of-the-arts on 8 zero-shot depth benchmarks and benefits downstream applications, including 3D reconstruction and generalized robotic grasping. The code is available at https://github.com/DepthAnything/PromptDA .

翻译：提示在释放语言和视觉基础模型针对特定任务的能力方面起着关键作用。我们首次将提示机制引入深度基础模型，创建了一种称为提示深度任意模型（Prompt Depth Anything）的度量深度估计新范式。具体而言，我们使用低成本激光雷达作为提示，引导深度任意模型输出精确的度量深度，分辨率最高可达4K。我们的方法核心在于简洁的提示融合设计，该设计在深度解码器的多个尺度上集成激光雷达数据。为解决同时包含激光雷达深度和精确真实深度标注的有限数据集带来的训练挑战，我们提出了一个可扩展的数据流水线，包括合成数据激光雷达模拟和真实数据伪真实深度生成。为了进一步扩展我们的方法，使其能够处理任意提示深度点，我们提出了一种新的提示机制，该机制将输入深度点序列化为标记，并利用自注意力机制增强来自深度基础模型的图像标记。我们的方法在8个零样本深度基准测试中创造了新的最优性能，并有益于下游应用，包括三维重建和广义机器人抓取。代码可在 https://github.com/DepthAnything/PromptDA 获取。

0

相关内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

专知会员服务

52+阅读 · 2025年4月10日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

专知会员服务

82+阅读 · 2023年6月30日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

深空探测雷达载荷数据压缩方法与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

What You Prompt is What You Get: Increasing Transparency of Prompting Using Prompt Cards

Arxiv

0+阅读 · 3月13日

DVD: Deterministic Video Depth Estimation with Generative Priors

Arxiv

0+阅读 · 3月12日

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Arxiv

0+阅读 · 3月3日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

Derivation Depth as an Information Metric: Axioms, Coding Theorems, and Storage--Computation Tradeoffs

Arxiv

0+阅读 · 2月22日

ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization

Arxiv

0+阅读 · 2月19日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

Arxiv

0+阅读 · 2月11日

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Arxiv

0+阅读 · 2月8日

PromptSplit: Revealing Prompt-Level Disagreement in Generative Models

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

深度基础模型

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

5+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

4+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

3+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

8+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

2+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

5+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

4+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

2+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

0+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

0+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

1+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

8+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

9+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

4+阅读 · 4月18日

相关VIP内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

专知会员服务

52+阅读 · 2025年4月10日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

专知会员服务

82+阅读 · 2023年6月30日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关论文

What You Prompt is What You Get: Increasing Transparency of Prompting Using Prompt Cards

Arxiv

0+阅读 · 3月13日

DVD: Deterministic Video Depth Estimation with Generative Priors

Arxiv

0+阅读 · 3月12日

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Arxiv

0+阅读 · 3月3日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

Derivation Depth as an Information Metric: Axioms, Coding Theorems, and Storage--Computation Tradeoffs

Arxiv

0+阅读 · 2月22日

ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization

Arxiv

0+阅读 · 2月19日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

Arxiv

0+阅读 · 2月11日

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Arxiv

0+阅读 · 2月8日

PromptSplit: Revealing Prompt-Level Disagreement in Generative Models

Arxiv

0+阅读 · 2月6日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

深空探测雷达载荷数据压缩方法与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员