O3N: Omnidirectional Open-Vocabulary Occupancy Prediction - 专知论文

会员服务 ·

0

重建 · 嵌入 · 一致 · 对齐 · 具身智能 ·

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

翻译：O3N：全向开放词汇占据预测

Mengfei Duan,Hao Shi,Fei Teng,Guoqiang Zhao,Yuheng Zhang,Zhiyong Li,Kailun Yang

from arxiv, The source code will be made publicly available at https://github.com/MengfeiD/O3N

Understanding and reconstructing the 3D world through omnidirectional perception is an inevitable trend in the development of autonomous agents and embodied intelligence. However, existing 3D occupancy prediction methods are constrained by limited perspective inputs and predefined training distribution, making them difficult to apply to embodied agents that require comprehensive and safe perception of scenes in open world exploration. To address this, we present O3N, the first purely visual, end-to-end Omnidirectional Open-vocabulary Occupancy predictioN framework. O3N embeds omnidirectional voxels in a polar-spiral topology via the Polar-spiral Mamba (PsM) module, enabling continuous spatial representation and long-range context modeling across 360°. The Occupancy Cost Aggregation (OCA) module introduces a principled mechanism for unifying geometric and semantic supervision within the voxel space, ensuring consistency between the reconstructed geometry and the underlying semantic structure. Moreover, Natural Modality Alignment (NMA) establishes a gradient-free alignment pathway that harmonizes visual features, voxel embeddings, and text semantics, forming a consistent "pixel-voxel-text" representation triad. Extensive experiments on multiple models demonstrate that our method not only achieves state-of-the-art performance on QuadOcc and Human360Occ benchmarks but also exhibits remarkable cross-scene generalization and semantic scalability, paving the way toward universal 3D world modeling. The source code will be made publicly available at https://github.com/MengfeiD/O3N.

翻译：通过全向感知理解和重建三维世界是自主智能体与具身智能发展的必然趋势。然而，现有的三维占据预测方法受限于有限的视角输入和预定义的训练分布，难以应用于开放世界探索中需要全面且安全场景感知的具身智能体。为此，我们提出了O3N，首个纯视觉、端到端的全向开放词汇占据预测框架。O3N通过极坐标螺旋Mamba（PsM）模块将全向体素嵌入极坐标螺旋拓扑中，实现了跨360°的连续空间表征与长程上下文建模。占据代价聚合（OCA）模块引入了一种原则性机制，在体素空间内统一几何与语义监督，确保重建几何与底层语义结构的一致性。此外，自然模态对齐（NMA）建立了一条无梯度对齐路径，协调视觉特征、体素嵌入与文本语义，形成一致的“像素-体素-文本”表征三元组。在多个模型上的大量实验表明，我们的方法不仅在QuadOcc和Human360Occ基准上取得了最先进的性能，而且展现出卓越的跨场景泛化能力与语义可扩展性，为通用三维世界建模开辟了道路。源代码将在 https://github.com/MengfeiD/O3N 公开。

0

相关内容

OpenAI 发布推理模型o3-mini，附37页技术报告，中英文版

OpenAI 发布推理模型o3-mini，附37页技术报告，中英文版

专知会员服务

48+阅读 · 2025年2月1日

《2024具身智能科技前沿热点》正式发布！32页pdf

《2024具身智能科技前沿热点》正式发布！32页pdf

专知会员服务

66+阅读 · 2024年12月30日

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

专知会员服务

23+阅读 · 2024年12月21日

重磅! 中科院发布《2023研究前沿》报告，132页pdf阐述11大领域110个热点和18个新兴前沿

重磅! 中科院发布《2023研究前沿》报告，132页pdf阐述11大领域110个热点和18个新兴前沿

专知会员服务

95+阅读 · 2023年12月6日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

腾讯发布《2023年十大数字科技前沿应用趋势》，73页ppt

腾讯发布《2023年十大数字科技前沿应用趋势》，73页ppt

专知会员服务

71+阅读 · 2022年12月16日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

上百种预训练中文词向量：Chinese-Word-Vectors

上百种预训练中文词向量：Chinese-Word-Vectors

AINLP

23+阅读 · 2019年2月26日

相似词查询：玩转腾讯 AI Lab 中文词向量

相似词查询：玩转腾讯 AI Lab 中文词向量

AINLP

11+阅读 · 2019年2月25日

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

极市平台

17+阅读 · 2019年2月16日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

资源 | 腾讯开源800万中文词的NLP数据集

资源 | 腾讯开源800万中文词的NLP数据集

THU数据派

15+阅读 · 2018年10月29日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

线上 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

线上 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

16+阅读 · 2017年12月12日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波前动态扫描系统的计算全息三维显示技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

Arxiv

0+阅读 · 4月30日

OxyGent: Making Multi-Agent Systems Modular, Observable, and Evolvable via Oxy Abstraction

Arxiv

0+阅读 · 4月29日

DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation

Arxiv

0+阅读 · 3月30日

OccAny: Generalized Unconstrained Urban 3D Occupancy

Arxiv

0+阅读 · 3月24日

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

Arxiv

0+阅读 · 3月18日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

Odin: Multi-Signal Graph Intelligence for Autonomous Discovery in Knowledge Graphs

Arxiv

0+阅读 · 3月3日

OmniGAIA: Towards Native Omni-Modal AI Agents

Arxiv

0+阅读 · 2月26日

OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

OpenAI 发布推理模型o3-mini，附37页技术报告，中英文版

OpenAI 发布推理模型o3-mini，附37页技术报告，中英文版

专知会员服务

48+阅读 · 2025年2月1日

《2024具身智能科技前沿热点》正式发布！32页pdf

《2024具身智能科技前沿热点》正式发布！32页pdf

专知会员服务

66+阅读 · 2024年12月30日

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

专知会员服务

23+阅读 · 2024年12月21日

重磅! 中科院发布《2023研究前沿》报告，132页pdf阐述11大领域110个热点和18个新兴前沿

重磅! 中科院发布《2023研究前沿》报告，132页pdf阐述11大领域110个热点和18个新兴前沿

专知会员服务

95+阅读 · 2023年12月6日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

腾讯发布《2023年十大数字科技前沿应用趋势》，73页ppt

腾讯发布《2023年十大数字科技前沿应用趋势》，73页ppt

专知会员服务

71+阅读 · 2022年12月16日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

上百种预训练中文词向量：Chinese-Word-Vectors

上百种预训练中文词向量：Chinese-Word-Vectors

AINLP

23+阅读 · 2019年2月26日

相似词查询：玩转腾讯 AI Lab 中文词向量

相似词查询：玩转腾讯 AI Lab 中文词向量

AINLP

11+阅读 · 2019年2月25日

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

极市平台

17+阅读 · 2019年2月16日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

资源 | 腾讯开源800万中文词的NLP数据集

资源 | 腾讯开源800万中文词的NLP数据集

THU数据派

15+阅读 · 2018年10月29日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

线上 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

线上 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

16+阅读 · 2017年12月12日

相关论文

FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

Arxiv

0+阅读 · 4月30日

OxyGent: Making Multi-Agent Systems Modular, Observable, and Evolvable via Oxy Abstraction

Arxiv

0+阅读 · 4月29日

DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation

Arxiv

0+阅读 · 3月30日

OccAny: Generalized Unconstrained Urban 3D Occupancy

Arxiv

0+阅读 · 3月24日

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

Arxiv

0+阅读 · 3月18日

OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding

Arxiv

0+阅读 · 3月17日

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

Odin: Multi-Signal Graph Intelligence for Autonomous Discovery in Knowledge Graphs

Arxiv

0+阅读 · 3月3日

OmniGAIA: Towards Native Omni-Modal AI Agents

Arxiv

0+阅读 · 2月26日

OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation

Arxiv

0+阅读 · 2月24日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波前动态扫描系统的计算全息三维显示技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员