Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.


翻译:三维场景的空间推理是具身智能的核心能力,然而模型的持续改进仍受限于几何标注的成本。自进化范式提供了有前景的路径,但其依赖模型共识构建伪标签的策略,会导致训练强化而非修正模型自身的几何误差。我们识别出三维空间推理中能规避此局限的独特属性:真值由底层几何结构确定性决定,可在无任何模型参与下,直接从点云和相机位姿精确计算得出。基于这一洞见,我们提出SpatialEvo——以确定性几何环境(DGE)为核心的三维空间推理自进化框架。DGE将16类空间推理任务形式化为显式几何验证规则,将未标注的三维场景转化为零噪声交互式预言机,以客观物理反馈取代模型共识。在DGE约束下,单一共享参数策略在提问者与求解者角色间协同进化:提问者基于场景观测生成物理有效的空间问题,求解者则根据DGE验证的真值得出精确答案。任务自适应调度器内生性地将训练聚焦于模型最薄弱的类别,形成无需人工设计的动态课程。在九个基准上的实验表明,SpatialEvo在3B和7B参数规模下均取得最高平均分,在空间推理基准上实现持续提升,且未对通用视觉理解造成性能下降。

0
下载
关闭预览

相关内容

《基于Transformer的智能体的战术决策解释》
专知会员服务
49+阅读 · 2025年12月28日
重建四维空间智能:综述
专知会员服务
25+阅读 · 2025年7月29日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员