GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation - 专知论文

会员服务 ·

0

表示 · MoDELS · 机器人 · 3D · 评论员 ·

GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

翻译：GAF：面向机器人操作中动态世界建模的高斯动作场四维表示

Ying Chai,Litao Deng,Ruizhi Shao,Jiajun Zhang,Kangchen Lv,Liangjun Xing,Xiang Li,Hongwen Zhang,Yebin Liu

from arxiv, https://ChaiYing1.github.io/projects/GAF/

Accurate scene perception is critical for vision-based robotic manipulation. Existing approaches typically follow either a Vision-to-Action (V-A) paradigm, predicting actions directly from visual inputs, or a Vision-to-3D-to-Action (V-3D-A) paradigm, leveraging intermediate 3D representations. However, these methods often struggle with action inaccuracies due to the complexity and dynamic nature of manipulation scenes. In this paper, we adopt a V-4D-A framework that enables direct action reasoning from motion-aware 4D representations via a Gaussian Action Field (GAF). GAF extends 3D Gaussian Splatting (3DGS) by incorporating learnable motion attributes, allowing 4D modeling of dynamic scenes and manipulation actions. To learn time-varying scene geometry and action-aware robot motion, GAF provides three interrelated outputs: reconstruction of the current scene, prediction of future frames, and estimation of init action via Gaussian motion. Furthermore, we employ an action-vision-aligned denoising framework, conditioned on a unified representation that combines the init action and the Gaussian perception, both generated by the GAF, to further obtain more precise actions. Extensive experiments demonstrate significant improvements, with GAF achieving +11.5385 dB PSNR, +0.3864 SSIM and -0.5574 LPIPS improvements in reconstruction quality, while boosting the average +7.3% success rate in robotic manipulation tasks over state-of-the-art methods.

翻译：精确的场景感知对于基于视觉的机器人操作至关重要。现有方法通常遵循两种范式：视觉到动作（V-A）范式（直接从视觉输入预测动作）或视觉到三维再到动作（V-3D-A）范式（利用中间三维表示）。然而，这些方法常因操作场景的复杂性和动态性而面临动作不精确的问题。本文采用V-4D-A框架，通过高斯动作场（GAF）从具有运动感知能力的四维表示中直接进行动作推理。GAF通过引入可学习的运动属性扩展了三维高斯泼溅（3DGS），实现了动态场景与操作行为的四维建模。为学习时变场景几何与动作感知的机器人运动，GAF提供三类相互关联的输出：当前场景重建、未来帧预测，以及基于高斯运动的初始动作估计。此外，我们采用动作-视觉对齐的去噪框架，以GAF生成的初始动作与高斯感知的统一表示作为条件，进一步获取更精确的动作。大量实验表明，GAF在重建质量上取得了显著提升：PSNR提高+11.5385 dB、SSIM提高+0.3864、LPIPS降低-0.5574；同时，在机器人操作任务中，其平均成功率较现有最优方法提升+7.3%。

0

相关内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

9+阅读 · 6月3日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

机器人领域中最佳的三维场景表示是什么？——从几何表示到基础模型

机器人领域中最佳的三维场景表示是什么？——从几何表示到基础模型

专知会员服务

16+阅读 · 2025年12月4日

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

专知会员服务

8+阅读 · 2025年11月13日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

30+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

机器人中的神经场：综述

机器人中的神经场：综述

专知会员服务

36+阅读 · 2024年11月1日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Arxiv

0+阅读 · 6月14日

PhysVLA: Towards Physically-Grounded VLA for Embodied Robotic Manipulation

Arxiv

0+阅读 · 6月11日

Sparse2Act: Learning Action-Aligned Sparse 3D Representations for Cross-Domain Robot Manipulation

Arxiv

0+阅读 · 6月10日

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Arxiv

0+阅读 · 6月10日

MV-Actor: Aligning Multi-View Semantics and Spatial Awareness for Bimanual Manipulation

Arxiv

0+阅读 · 6月9日

Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

Arxiv

0+阅读 · 6月6日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

PointAction: 3D Points as Universal Action Representations for Robot Control

Arxiv

0+阅读 · 6月2日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 5月26日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 49分钟前

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 51分钟前

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 53分钟前

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

2+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

3+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

2+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

2+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

2+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

2+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

1+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

9+阅读 · 6月3日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

机器人领域中最佳的三维场景表示是什么？——从几何表示到基础模型

机器人领域中最佳的三维场景表示是什么？——从几何表示到基础模型

专知会员服务

16+阅读 · 2025年12月4日

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

专知会员服务

8+阅读 · 2025年11月13日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

30+阅读 · 2025年9月12日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

机器人中的神经场：综述

机器人中的神经场：综述

专知会员服务

36+阅读 · 2024年11月1日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【机器视觉】机器视觉全面解析

【机器视觉】机器视觉全面解析

产业智能官

12+阅读 · 2018年11月12日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Arxiv

0+阅读 · 6月14日

PhysVLA: Towards Physically-Grounded VLA for Embodied Robotic Manipulation

Arxiv

0+阅读 · 6月11日

Sparse2Act: Learning Action-Aligned Sparse 3D Representations for Cross-Domain Robot Manipulation

Arxiv

0+阅读 · 6月10日

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Arxiv

0+阅读 · 6月10日

MV-Actor: Aligning Multi-View Semantics and Spatial Awareness for Bimanual Manipulation

Arxiv

0+阅读 · 6月9日

Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

Arxiv

0+阅读 · 6月6日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

PointAction: 3D Points as Universal Action Representations for Robot Control

Arxiv

0+阅读 · 6月2日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 5月26日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 5月6日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员