Indoor scene generation is crucial for robot simulation and modern interior design. However, complex layouts together with scarce 3D scene data make learning-based generation challenging. Existing methods often rely on hand-crafted rules or focus on isolated sub-tasks (e.g., floorplan synthesis or single-room furnishing), producing whole-home scenes that lack global coherence, realism, and simulation readiness. To mitigate these limitations, we propose a unified hierarchical framework that decomposes indoor scene synthesis into controllable stages. First, we curate a large-scale dataset of 300K real residential floorplans to train a large language model for whole-home floorplan generation. With detailed descriptions and a K-D tree-based representation, our method enables fine-grained, controllable whole-home floorplan generation. Building upon the generated whole-home floorplan, we leverage image generation models to draft furniture layouts from multi-level roaming viewpoints, and then generate the layouts of small manipulable objects on different supporting surfaces (e.g., cabinets, desks, and dining tables) for embodied AI simulation. During furniture and object layout generation, a VLM-based refiner iteratively corrects furniture and object placement, and a 3D generative model enables flexible replacement of individual assets. We further attach basic physical attributes and simple surface texture and lighting setups to complete the pipeline for embodied AI use. Experiments and user studies demonstrate that our pipeline produces indoor spaces with greater layout diversity and stronger 3D design appeal, outperforming prior methods on both quantitative and qualitative metrics. Finally, alongside our generation pipeline, we will release the floorplan dataset and 5K fully furnished scenes to the community. Project Page: https://kairos-homeworld.github.io/


翻译:室内场景生成对于机器人仿真和现代室内设计至关重要。然而,复杂的布局与稀缺的三维场景数据使得基于学习的生成方法面临挑战。现有方法通常依赖手工规则或聚焦于孤立子任务(例如平面图合成或单房间家具布置),生成的全屋场景缺乏全局连贯性、真实感以及仿真就绪性。为缓解这些局限,我们提出一种统一的分层框架,将室内场景合成分解为可控阶段。首先,我们构建了一个包含30万真实住宅平面图的大规模数据集,用于训练一个面向全屋平面图生成的大语言模型。借助详细描述与基于K-D树的表示方法,我们的方法实现了细粒度、可控的全屋平面图生成。基于生成的全屋平面图,我们利用图像生成模型从多级漫游视角绘制家具布局,继而生成不同支撑表面(如橱柜、书桌和餐桌)上小件可操控物体的布局,以支持具身人工智能仿真。在家具与物体布局生成过程中,一个基于视觉语言模型的精炼器会迭代修正家具与物体的摆放,而一个三维生成模型则能灵活替换单个资产。我们进一步为管线附加基本物理属性、简单表面纹理和光照设置,以完善具身人工智能的应用流程。实验与用户研究表明,我们的管线能生成具有更高布局多样性和更强三维设计吸引力的室内空间,在定量与定性指标上均优于先前方法。最后,伴随生成管线,我们将向社区发布该平面图数据集以及5000个完整家具布置的场景。项目页面:https://kairos-homeworld.github.io/

0
下载
关闭预览

相关内容

三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员