Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning - 专知论文

会员服务 ·

0

工具 · 3D · Skills · 场景感知 · 工具使用 ·

Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

翻译：Skill-3D: 演化式场景感知技能赋能具身三维空间推理

Haoyuan Li,Zhengdong Hu,Jun Wang,Hehe Fan,Yi Yang

This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 60% on VSI-Bench.

翻译：本文探索具身三维空间理解，即多模态大语言模型智能体通过工具使用执行三维推理的任务。现有方法常误用工具，且在三维场景下表现出有偏的工具偏好，导致具身范式相较非具身策略仅有微弱提升。我们发现三维空间推理任务跨场景具有异质性，而现有智能体对所有场景采用统一的工具使用策略，未根据特定场景和任务选择工具。为此，我们提出Skill-3D框架，通过学习自演化的场景感知技能解决该问题。具体而言，Skill-3D识别任务场景并将智能体的工具使用轨迹记录至场景记忆库，其中来自相似场景的成功轨迹被聚合蒸馏为可复用的场景感知技能，失败轨迹则作为经验教训附于技能。训练过程中，当相似场景再次出现时，注入对应技能以引导智能体产生新轨迹，其成败结果进一步优化该技能，形成记忆库与技能库协同演化的闭环。实验表明，Skill-3D显著提升了三维空间推理中的工具利用率（VSI-Bench基准从39%提升至78%），推动智能体实现正确且充分的工具使用。例如，在MMSI-Bench上使Gemini-3-Flash提升67%。此外，我们基于技能引导轨迹进行具身后训练，在VSI-Bench上将Qwen3-VL-8B提升60%。

0

相关内容

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

27+阅读 · 3月18日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

具身智能十大观察洞悉智能发展之势，探索智能向善之路

具身智能十大观察洞悉智能发展之势，探索智能向善之路

专知会员服务

24+阅读 · 2025年11月25日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

18+阅读 · 2025年2月26日

三维视觉-语言推理技术的前沿研究与最新趋势

三维视觉-语言推理技术的前沿研究与最新趋势

专知会员服务

24+阅读 · 2024年5月6日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

SkillMutator: Benchmarking and Defending Language-and-Code Cross-modal Attacks on LLM Agent Skills

Arxiv

0+阅读 · 6月12日

Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning

Arxiv

0+阅读 · 6月11日

Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

Arxiv

0+阅读 · 6月5日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Arxiv

0+阅读 · 5月18日

ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

Arxiv

0+阅读 · 5月6日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 5月6日

Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

27+阅读 · 3月18日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

具身智能十大观察洞悉智能发展之势，探索智能向善之路

具身智能十大观察洞悉智能发展之势，探索智能向善之路

专知会员服务

24+阅读 · 2025年11月25日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

18+阅读 · 2025年2月26日

三维视觉-语言推理技术的前沿研究与最新趋势

三维视觉-语言推理技术的前沿研究与最新趋势

专知会员服务

24+阅读 · 2024年5月6日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

SkillMutator: Benchmarking and Defending Language-and-Code Cross-modal Attacks on LLM Agent Skills

Arxiv

0+阅读 · 6月12日

Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning

Arxiv

0+阅读 · 6月11日

Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

Arxiv

0+阅读 · 6月5日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Arxiv

0+阅读 · 5月18日

ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

Arxiv

0+阅读 · 5月6日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 5月6日

Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models

Arxiv

0+阅读 · 3月25日

相关基金

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员