Spatial augmented reality (SAR) directly projects digital content onto physical scenes using projectors, creating immersive experience without head-mounted displays. However, for SAR to support intelligent interaction, such as reasoning about the scene or answering user queries, it must semantically distinguish between the physical scene and the projected content. Standard Vision Language Models (VLMs) struggle with this virtual-physical ambiguity, often confusing the two contexts. To address this issue, we introduce ProCap, a novel framework that explicitly decouples projected content from physical scenes. ProCap employs a two-stage pipeline: first it visually isolates virtual and physical layers via automated segmentation; then it uses region-aware retrieval to avoid ambiguous semantic context due to projection distortion. To support this, we present RGBP (RGB + Projections), the first large-scale SAR semantic benchmark dataset, featuring 65 diverse physical scenes and over 180,000 projections with dense, decoupled annotations. Finally, we establish a dual-captioning evaluation protocol using task-specific tokens to assess physical scene and projection descriptions independently. Our experiments show that ProCap provides a robust semantic foundation for future SAR research. The source code, pre-trained models and the RGBP dataset are available on the project page: https://ZimoCao.github.io/ProCap/.


翻译:空间增强现实(SAR)通过投影仪将数字内容直接投射到物理场景上,无需头戴式显示器即可创造沉浸式体验。然而,要使SAR支持智能交互(如场景推理或回答用户查询),系统必须从语义上区分物理场景与投影内容。标准视觉语言模型(VLM)难以应对这种虚实模糊性,常将两者混淆。为解决此问题,我们提出ProCap——一种新颖的框架,能显式解耦投影内容与物理场景。ProCap采用两阶段流水线:首先通过自动分割在视觉上隔离虚拟层与物理层;随后利用区域感知检索避免投影畸变导致的语义歧义。为此,我们构建了RGBP(RGB+投影)——首个大规模SAR语义基准数据集,包含65个多样化物理场景及超过18万个带有密集解耦标注的投影。最后,我们建立双描述评估协议,通过任务特定标记独立评估物理场景描述与投影描述。实验表明,ProCap为未来SAR研究提供了稳健的语义基础。源代码、预训练模型及RGBP数据集已发布于项目页面:https://ZimoCao.github.io/ProCap/。

0
下载
关闭预览

相关内容

中国增强现实(AR)行业研究报告(附报告),67页ppt
专知会员服务
44+阅读 · 2023年3月17日
专知会员服务
22+阅读 · 2021年10月9日
专家报告 | 给“深度”以“先验”,让你的模糊图像清晰起来!
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员