Autonomous 3D indoor scene synthesis breaks down in non-convex rooms with tightly coupled spatial constraints. Data-driven generators lack topological priors for long-horizon planning, while iterative agents fragment semantics and become geometrically brittle. We present ZoneMaestro, a unified framework that shifts the paradigm from object-centric synthesis to Zone-Graph Orchestration. By internalizing a novel zone-based logic, ZoneMaestro translates high-level semantic intent into functional zones and topological constraints, enabling robust adaptation to diverse architectural forms. To support this, we construct Zone-Scene-10K, a large-scale dataset enriched with explicit Zone-Graph annotations. We further introduce an Alternating Alignment Strategy that cycles between reasoning internalization and Zone-Aware Group Relative Policy Optimization (Z-GRPO), effectively reconciling the tension between semantic richness and geometric validity without relying on external physics engines. To rigorously evaluate spatial intelligence beyond convex primitives, we formally define the task of Intricate Spatial Orchestration and release SCALE, a stress-test benchmark for irregular indoor scenarios with complex, dense spatial relations. Extensive experiments demonstrate that ZoneMaestro resolves the density-safety dichotomy, significantly outperforming state-of-the-art baselines in both structural coherence and intent adherence.


翻译:自主三维室内场景合成在具有紧密耦合空间约束的非凸房间中会失效。数据驱动生成器缺乏用于长程规划的先验拓扑知识,而迭代式智能体则会破坏语义连贯性并导致几何脆弱性。我们提出ZoneMaestro——一个将范式从以对象为中心的合成转向区域-图协调的统一框架。通过内化一种新颖的基于区域的逻辑,ZoneMaestro将高层语义意图转化为功能区域和拓扑约束,使其能够稳健适应多种建筑形态。为此,我们构建了Zone-Scene-10K——一个包含显式区域-图注释的大规模数据集。我们进一步提出一种交替对齐策略,该策略在推理内化与区域感知群体相对策略优化(Z-GRPO)之间循环切换,有效调和了语义丰富性与几何有效性之间的矛盾,且无需依赖外部物理引擎。为严格评估凸体原语之外的空间智能,我们正式定义了复杂空间协调任务,并发布了SCALE——一个针对具有复杂密集空间关系的不规则室内场景的压力测试基准。大量实验表明,ZoneMaestro解决了密度-安全性二分问题,在结构连贯性和意图遵从度方面均显著优于现有最优基线。

0
下载
关闭预览

相关内容

三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关资讯
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员