Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots - 专知论文

会员服务 ·

0

模态 · 多模 · 四足机器人 · 多模态 · 设计 ·

Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

翻译：全景多模态语义占据预测在四足机器人中的应用

Guoqiang Zhao,Zhe Yang,Sheng Wu,Fei Teng,Mengfei Duan,Yuanfan Zheng,Kai Luo,Kailun Yang

from arxiv, The dataset and code will be publicly released at https://github.com/SXDR/PanoMMOcc

Panoramic imagery provides holistic 360° visual coverage for perception in quadruped robots. However, existing occupancy prediction methods are mainly designed for wheeled autonomous driving and rely heavily on RGB cues, limiting their robustness in complex environments. To bridge this gap, (1) we present PanoMMOcc, the first real-world panoramic multimodal occupancy dataset for quadruped robots, featuring four sensing modalities across diverse scenes. (2) We propose a panoramic multimodal occupancy perception framework, VoxelHound, tailored for legged mobility and spherical imaging. Specifically, we design (i) a Vertical Jitter Compensation (VJC) module to mitigate severe viewpoint perturbations caused by body pitch and roll during mobility, enabling more consistent spatial reasoning, and (ii) an effective Multimodal Information Prompt Fusion (MIPF) module that jointly leverages panoramic visual cues and auxiliary modalities to enhance volumetric occupancy prediction. (3) We establish a benchmark based on PanoMMOcc and provide detailed data analysis to enable systematic evaluation of perception methods under challenging embodied scenarios. Extensive experiments demonstrate that VoxelHound achieves state-of-the-art performance on PanoMMOcc (+4.16%} in mIoU). The dataset and code will be publicly released to facilitate future research on panoramic multimodal 3D perception for embodied robotic systems at https://github.com/SXDR/PanoMMOcc, along with the calibration tools released at https://github.com/losehu/CameraLiDAR-Calib.

翻译：全景成像为四足机器人的感知提供了360度全景视觉覆盖。然而，现有的占据预测方法主要面向轮式自动驾驶设计，且严重依赖RGB视觉线索，在复杂环境中的鲁棒性受限。为填补这一空白，（1）我们提出了PanoMMOcc——首个面向四足机器人的真实世界全景多模态占据数据集，涵盖多样化场景下的四种传感模态。（2）我们提出了专为足式移动与球面成像设计的全景多模态占据感知框架VoxelHound。具体而言，我们设计了（i）垂直抖动补偿模块以缓解运动过程中由机体俯仰和横滚引起的剧烈视点扰动，从而实现更一致的空间推理；（ii）高效的多模态信息提示融合模块，联合利用全景视觉线索与辅助模态以增强体素占据预测。（3）基于PanoMMOcc建立了基准测试体系，并通过详细的数据分析为具身挑战场景下的感知方法系统评估提供支持。大量实验表明，VoxelHound在PanoMMOcc上实现了最先进的性能（mIoU提升+4.16%）。数据集与代码将通过https://github.com/SXDR/PanoMMOcc公开，标定工具发布于https://github.com/losehu/CameraLiDAR-Calib，以促进具身机器人系统全景多模态3D感知的未来研究。

0

相关内容

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

专知会员服务

20+阅读 · 2025年12月29日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

专知会员服务

61+阅读 · 2024年9月18日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

58+阅读 · 2024年5月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【无人机蜂群】《用于态势感知的多机器人系统自主集群》2022最新22页论文

【无人机蜂群】《用于态势感知的多机器人系统自主集群》2022最新22页论文

专知会员服务

78+阅读 · 2022年12月15日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

65+阅读 · 2022年3月22日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

泡泡机器人SLAM

10+阅读 · 2019年9月15日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Energy Prediction on Sloping Ground for Quadruped Robots

Arxiv

0+阅读 · 3月12日

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Arxiv

0+阅读 · 3月10日

Whole-Body Model-Predictive Control of Legged Robots with MuJoCo

Arxiv

0+阅读 · 3月6日

GrandTour: A Legged Robotics Dataset in the Wild for Multi-Modal Perception and State Estimation

Arxiv

0+阅读 · 3月3日

GrandTour: A Legged Robotics Dataset in the Wild for Multi-Modal Perception and State Estimation

Arxiv

0+阅读 · 2月20日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

Dynamic Modeling and MPC for Locomotion of Tendon-Driven Soft Quadruped

Arxiv

0+阅读 · 2月18日

SENSE-STEP: Learning Sim-to-Real Locomotion for a Sensory-Enabled Soft Quadruped Robot

Arxiv

0+阅读 · 2月13日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Enhancing Navigation Efficiency of Quadruped Robots via Leveraging Personal Transportation Platforms

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

四足机器人

最新内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

7+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

9+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

8+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

8+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

6+阅读 · 5月4日

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

专知会员服务

9+阅读 · 5月3日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

8+阅读 · 5月3日

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

专知会员服务

13+阅读 · 5月3日

《无人机与大规模齐射攻击：美国-以色列的经验教训》

《无人机与大规模齐射攻击：美国-以色列的经验教训》

专知会员服务

18+阅读 · 5月3日

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

专知会员服务

7+阅读 · 5月3日

《军事人工智能中的法律、伦理和技术困境》338页书籍

《军事人工智能中的法律、伦理和技术困境》338页书籍

专知会员服务

6+阅读 · 5月3日

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

专知会员服务

9+阅读 · 5月3日

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

14+阅读 · 5月2日

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

9+阅读 · 5月2日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

11+阅读 · 5月2日

相关VIP内容

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

专知会员服务

20+阅读 · 2025年12月29日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

专知会员服务

61+阅读 · 2024年9月18日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

58+阅读 · 2024年5月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【无人机蜂群】《用于态势感知的多机器人系统自主集群》2022最新22页论文

【无人机蜂群】《用于态势感知的多机器人系统自主集群》2022最新22页论文

专知会员服务

78+阅读 · 2022年12月15日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

65+阅读 · 2022年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】机器人学习中的世界模型：全面综述

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

伊朗的导弹-无人机行动及其对美国威慑的影响

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

【泡泡图灵智库】使用语义特征优化全景影像序列与移动激光点云的自动配准

泡泡机器人SLAM

10+阅读 · 2019年9月15日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Energy Prediction on Sloping Ground for Quadruped Robots

Arxiv

0+阅读 · 3月12日

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Arxiv

0+阅读 · 3月10日

Whole-Body Model-Predictive Control of Legged Robots with MuJoCo

Arxiv

0+阅读 · 3月6日

GrandTour: A Legged Robotics Dataset in the Wild for Multi-Modal Perception and State Estimation

Arxiv

0+阅读 · 3月3日

GrandTour: A Legged Robotics Dataset in the Wild for Multi-Modal Perception and State Estimation

Arxiv

0+阅读 · 2月20日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

Dynamic Modeling and MPC for Locomotion of Tendon-Driven Soft Quadruped

Arxiv

0+阅读 · 2月18日

SENSE-STEP: Learning Sim-to-Real Locomotion for a Sensory-Enabled Soft Quadruped Robot

Arxiv

0+阅读 · 2月13日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Enhancing Navigation Efficiency of Quadruped Robots via Leveraging Personal Transportation Platforms

Arxiv

0+阅读 · 2月9日

相关基金

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员