Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.


翻译:可供性预测在具身人工智能中扮演着感知与行动之间的关键桥梁。然而,现有研究局限于针孔相机模型,其视野狭窄且观测结果碎片化,常常遗漏关键的整体环境上下文。本文首次探索全景可供性预测,利用360度图像捕捉全局空间关系与整体场景理解。为推进这一新颖任务,我们首先引入了PAP-12K,一个大规模基准数据集,包含超过1,000张超高分辨率(12k,11904 x 5952)全景图像,并配有超过12,000个精心标注的问答对及可供性掩码。此外,我们提出了PAP,一个受人类中央凹视觉系统启发的、无需训练、由粗到精的处理流程,以应对全景图像固有的超高分辨率与严重畸变问题。PAP通过网格提示递归地进行视觉路由以逐步定位目标,应用自适应注视机制校正局部几何畸变,并利用级联式定位流程提取精确的实例级掩码。在PAP-12K上的实验结果表明,为标准透视图像设计的现有可供性预测方法因全景视觉的独特挑战而性能严重下降甚至失效。相比之下,PAP框架有效克服了这些障碍,显著超越了现有最先进的基线方法,凸显了全景感知对于鲁棒具身智能的巨大潜力。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
《人工智能辅助决策中的数据可视化:系统性综述》
专知会员服务
27+阅读 · 2025年8月22日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
【CVPR2022-上海交大】可持续时空预测学习框架
专知会员服务
32+阅读 · 2022年5月14日
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
【IJCAI2021】​单样本可供性检测
专知会员服务
10+阅读 · 2021年8月27日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
全景分割任务介绍及其最新进展【附PPT与视频资料】
人工智能前沿讲习班
11+阅读 · 2018年12月5日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员