ProCap: Projection-Aware Captioning for Spatial Augmented Reality - 专知论文

会员服务 ·

0

投影 · 增强现实 · 解耦 · 数据集 · 投影仪 ·

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

翻译：《ProCap：面向空间增强现实的投影感知描述框架》

Zimo Cao,Yuchen Deng,Haibin Ling,Bingyao Huang

from arxiv, 16 pages, 7 figures

Spatial augmented reality (SAR) directly projects digital content onto physical scenes using projectors, creating immersive experience without head-mounted displays. However, for SAR to support intelligent interaction, such as reasoning about the scene or answering user queries, it must semantically distinguish between the physical scene and the projected content. Standard Vision Language Models (VLMs) struggle with this virtual-physical ambiguity, often confusing the two contexts. To address this issue, we introduce ProCap, a novel framework that explicitly decouples projected content from physical scenes. ProCap employs a two-stage pipeline: first it visually isolates virtual and physical layers via automated segmentation; then it uses region-aware retrieval to avoid ambiguous semantic context due to projection distortion. To support this, we present RGBP (RGB + Projections), the first large-scale SAR semantic benchmark dataset, featuring 65 diverse physical scenes and over 180,000 projections with dense, decoupled annotations. Finally, we establish a dual-captioning evaluation protocol using task-specific tokens to assess physical scene and projection descriptions independently. Our experiments show that ProCap provides a robust semantic foundation for future SAR research. The source code, pre-trained models and the RGBP dataset are available on the project page: https://ZimoCao.github.io/ProCap/.

翻译：空间增强现实（SAR）通过投影仪将数字内容直接投射到物理场景上，无需头戴式显示器即可创造沉浸式体验。然而，要使SAR支持智能交互（如场景推理或回答用户查询），系统必须从语义上区分物理场景与投影内容。标准视觉语言模型（VLM）难以应对这种虚实模糊性，常将两者混淆。为解决此问题，我们提出ProCap——一种新颖的框架，能显式解耦投影内容与物理场景。ProCap采用两阶段流水线：首先通过自动分割在视觉上隔离虚拟层与物理层；随后利用区域感知检索避免投影畸变导致的语义歧义。为此，我们构建了RGBP（RGB+投影）——首个大规模SAR语义基准数据集，包含65个多样化物理场景及超过18万个带有密集解耦标注的投影。最后，我们建立双描述评估协议，通过任务特定标记独立评估物理场景描述与投影描述。实验表明，ProCap为未来SAR研究提供了稳健的语义基础。源代码、预训练模型及RGBP数据集已发布于项目页面：https://ZimoCao.github.io/ProCap/。

0

相关内容

《扩展现实技术在美国防部维修训练中的应用》最新32页报告

《扩展现实技术在美国防部维修训练中的应用》最新32页报告

专知会员服务

19+阅读 · 2025年6月22日

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

专知会员服务

27+阅读 · 2025年6月22日

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

专知会员服务

23+阅读 · 2024年6月7日

《增强战场感知：具有深度增强功能的空中综合传感与通信系统》

《增强战场感知：具有深度增强功能的空中综合传感与通信系统》

专知会员服务

75+阅读 · 2024年6月3日

《跨现实应用互操作框架的动机和目标实现》美陆军21页报告

《跨现实应用互操作框架的动机和目标实现》美陆军21页报告

专知会员服务

42+阅读 · 2024年5月2日

《增强现实和虚拟现实培训效果框架：开发知识库》美国国防分析研究所73页报告

《增强现实和虚拟现实培训效果框架：开发知识库》美国国防分析研究所73页报告

专知会员服务

36+阅读 · 2023年11月23日

中国增强现实（AR）行业研究报告（附报告），67页ppt

中国增强现实（AR）行业研究报告（附报告），67页ppt

专知会员服务

44+阅读 · 2023年3月17日

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

专知会员服务

37+阅读 · 2023年1月18日

《用于 ISR 操作的增强现实协作和分析工具》美空军大学25页报告

《用于 ISR 操作的增强现实协作和分析工具》美空军大学25页报告

专知会员服务

42+阅读 · 2022年12月1日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知

25+阅读 · 2022年9月4日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DSM的建筑密集区域InSAR地形去除和相位解缠

国家自然科学基金

1+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

波导型准直投影系统中的超级衍射光栅技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Prop-Chromeleon: Adaptive Haptic Props in Mixed Reality through Generative Artificial Intelligence

Arxiv

0+阅读 · 5月1日

JARVIS: A Just-in-Time AR Visual Instruction System for Cross-Reality Task Guidance

Arxiv

0+阅读 · 4月14日

Vero: An Open RL Recipe for General Visual Reasoning

Arxiv

0+阅读 · 4月6日

ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

Arxiv

0+阅读 · 4月6日

SurgNavAR: An Augmented Reality Surgical Navigation Framework for Optical See-Through Head Mounted Displays

Arxiv

0+阅读 · 3月31日

SPREAD: Spatial-Physical REasoning via geometry Aware Diffusion

Arxiv

0+阅读 · 3月29日

Visualizing Impedance Control in Augmented Reality for Teleoperation: Design and User Evaluation

Arxiv

0+阅读 · 3月26日

HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models

Arxiv

0+阅读 · 3月26日

SEGAR: Selective Enhancement for Generative Augmented Reality

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

17+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

23+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

《扩展现实技术在美国防部维修训练中的应用》最新32页报告

《扩展现实技术在美国防部维修训练中的应用》最新32页报告

专知会员服务

19+阅读 · 2025年6月22日

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

专知会员服务

27+阅读 · 2025年6月22日

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

专知会员服务

23+阅读 · 2024年6月7日

《增强战场感知：具有深度增强功能的空中综合传感与通信系统》

《增强战场感知：具有深度增强功能的空中综合传感与通信系统》

专知会员服务

75+阅读 · 2024年6月3日

《跨现实应用互操作框架的动机和目标实现》美陆军21页报告

《跨现实应用互操作框架的动机和目标实现》美陆军21页报告

专知会员服务

42+阅读 · 2024年5月2日

《增强现实和虚拟现实培训效果框架：开发知识库》美国国防分析研究所73页报告

《增强现实和虚拟现实培训效果框架：开发知识库》美国国防分析研究所73页报告

专知会员服务

36+阅读 · 2023年11月23日

中国增强现实（AR）行业研究报告（附报告），67页ppt

中国增强现实（AR）行业研究报告（附报告），67页ppt

专知会员服务

44+阅读 · 2023年3月17日

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

专知会员服务

37+阅读 · 2023年1月18日

《用于 ISR 操作的增强现实协作和分析工具》美空军大学25页报告

《用于 ISR 操作的增强现实协作和分析工具》美空军大学25页报告

专知会员服务

42+阅读 · 2022年12月1日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知

25+阅读 · 2022年9月4日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

Arxiv

0+阅读 · 5月4日

Prop-Chromeleon: Adaptive Haptic Props in Mixed Reality through Generative Artificial Intelligence

Arxiv

0+阅读 · 5月1日

JARVIS: A Just-in-Time AR Visual Instruction System for Cross-Reality Task Guidance

Arxiv

0+阅读 · 4月14日

Vero: An Open RL Recipe for General Visual Reasoning

Arxiv

0+阅读 · 4月6日

ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

Arxiv

0+阅读 · 4月6日

SurgNavAR: An Augmented Reality Surgical Navigation Framework for Optical See-Through Head Mounted Displays

Arxiv

0+阅读 · 3月31日

SPREAD: Spatial-Physical REasoning via geometry Aware Diffusion

Arxiv

0+阅读 · 3月29日

Visualizing Impedance Control in Augmented Reality for Teleoperation: Design and User Evaluation

Arxiv

0+阅读 · 3月26日

HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models

Arxiv

0+阅读 · 3月26日

SEGAR: Selective Enhancement for Generative Augmented Reality

Arxiv

0+阅读 · 3月25日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DSM的建筑密集区域InSAR地形去除和相位解缠

国家自然科学基金

1+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

波导型准直投影系统中的超级衍射光栅技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员