Understanding and reconstructing the 3D world through omnidirectional perception is an inevitable trend in the development of autonomous agents and embodied intelligence. However, existing 3D occupancy prediction methods are constrained by limited perspective inputs and predefined training distribution, making them difficult to apply to embodied agents that require comprehensive and safe perception of scenes in open world exploration. To address this, we present O3N, the first purely visual, end-to-end Omnidirectional Open-vocabulary Occupancy predictioN framework. O3N embeds omnidirectional voxels in a polar-spiral topology via the Polar-spiral Mamba (PsM) module, enabling continuous spatial representation and long-range context modeling across 360°. The Occupancy Cost Aggregation (OCA) module introduces a principled mechanism for unifying geometric and semantic supervision within the voxel space, ensuring consistency between the reconstructed geometry and the underlying semantic structure. Moreover, Natural Modality Alignment (NMA) establishes a gradient-free alignment pathway that harmonizes visual features, voxel embeddings, and text semantics, forming a consistent "pixel-voxel-text" representation triad. Extensive experiments on multiple models demonstrate that our method not only achieves state-of-the-art performance on QuadOcc and Human360Occ benchmarks but also exhibits remarkable cross-scene generalization and semantic scalability, paving the way toward universal 3D world modeling. The source code will be made publicly available at https://github.com/MengfeiD/O3N.


翻译:通过全向感知理解和重建三维世界是自主智能体与具身智能发展的必然趋势。然而,现有的三维占据预测方法受限于有限的视角输入和预定义的训练分布,难以应用于开放世界探索中需要全面且安全场景感知的具身智能体。为此,我们提出了O3N,首个纯视觉、端到端的全向开放词汇占据预测框架。O3N通过极坐标螺旋Mamba(PsM)模块将全向体素嵌入极坐标螺旋拓扑中,实现了跨360°的连续空间表征与长程上下文建模。占据代价聚合(OCA)模块引入了一种原则性机制,在体素空间内统一几何与语义监督,确保重建几何与底层语义结构的一致性。此外,自然模态对齐(NMA)建立了一条无梯度对齐路径,协调视觉特征、体素嵌入与文本语义,形成一致的“像素-体素-文本”表征三元组。在多个模型上的大量实验表明,我们的方法不仅在QuadOcc和Human360Occ基准上取得了最先进的性能,而且展现出卓越的跨场景泛化能力与语义可扩展性,为通用三维世界建模开辟了道路。源代码将在 https://github.com/MengfeiD/O3N 公开。

0
下载
关闭预览

相关内容

OpenAI 发布推理模型o3-mini,附37页技术报告,中英文版
专知会员服务
48+阅读 · 2025年2月1日
《2024具身智能科技前沿热点》正式发布!32页pdf
专知会员服务
66+阅读 · 2024年12月30日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
腾讯发布《2023年十大数字科技前沿应用趋势》,73页ppt
专知会员服务
71+阅读 · 2022年12月16日
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美海军“超配项目”
专知会员服务
0+阅读 · 22分钟前
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
5+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
8+阅读 · 4月20日
相关资讯
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
资源 | 腾讯开源800万中文词的NLP数据集
THU数据派
15+阅读 · 2018年10月29日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员