Pair2Scene: Learning Local Object Relations for Procedural Scene Generation - 专知论文

会员服务 ·

0

Pair · 层级结构 · 结构 · 场景生成 · 语言模型 ·

Pair2Scene: Learning Local Object Relations for Procedural Scene Generation

翻译：Pair2Scene：学习局部对象关系以进行程序化场景生成

Xingjian Ran,Shujie Zhang,Weipeng Zhong,Li Luo,Bo Dai

Generating high-fidelity 3D indoor scenes remains a significant challenge due to data scarcity and the complexity of modeling intricate spatial relations. Current methods often struggle to scale beyond training distribution to dense scenes or rely on LLMs/VLMs that lack the ability for precise spatial reasoning. Building on top of the observation that object placement relies mainly on local dependencies instead of information-redundant global distributions, in this paper, we propose Pair2Scene, a novel procedural generation framework that integrates learned local rules with scene hierarchies and physics-based algorithms. These rules mainly capture two types of inter-object relations, namely support relations that follow physical hierarchies, and functional relations that reflect semantic links. We model these rules through a network, which estimates spatial position distributions of dependent objects conditioned on position and geometry of the anchor ones. Accordingly, we curate a dataset 3D-Pairs from existing scene data to train the model. During inference, our framework can generate scenes by recursively applying our model within a hierarchical structure, leveraging collision-aware rejection sampling to align local rules into coherent global layouts. Extensive experiments demonstrate that our framework outperforms existing methods in generating complex environments that go beyond training data while maintaining physical and semantic plausibility.

翻译：生成高保真度的三维室内场景仍是一项重大挑战，其原因在于数据稀缺以及复杂空间关系建模的难度。当前方法往往难以扩展到训练分布之外的密集场景，或依赖缺乏精确空间推理能力的大语言模型/视觉语言模型。基于对象放置主要依赖局部依赖关系而非信息冗余的全局分布这一观察，本文提出Pair2Scene，一种新颖的程序化生成框架，该框架将学习到的局部规则与场景层级结构及基于物理的算法相结合。这些规则主要捕捉两类对象间关系，即遵循物理层级的支撑关系与反映语义联系的功能关系。我们通过一个网络对这些规则进行建模，该网络基于锚点对象的位置与几何信息，估计依赖对象的空间位置分布。为此，我们从现有场景数据中整理出数据集3D-Pairs来训练该模型。在推理过程中，我们的框架可在层级结构内递归应用模型，借助碰撞感知拒绝采样将局部规则协调为连贯的整体布局。大量实验表明，我们的框架在生成超出训练数据的复杂环境方面优于现有方法，同时保持了物理与语义的合理性。

0

相关内容

Pair

两人亲密社交应用，官网： http://trypair.com/

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

专知会员服务

14+阅读 · 2025年11月17日

《大语言模型辅助生成军事训练场景》

《大语言模型辅助生成军事训练场景》

专知会员服务

43+阅读 · 2025年11月13日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

25+阅读 · 2025年8月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

专知会员服务

19+阅读 · 2019年10月30日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Map2World: Segment Map Conditioned Text to 3D World Generation

Arxiv

0+阅读 · 5月1日

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Arxiv

0+阅读 · 4月20日

LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

Arxiv

0+阅读 · 4月13日

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

专知会员服务

14+阅读 · 2025年11月17日

《大语言模型辅助生成军事训练场景》

《大语言模型辅助生成军事训练场景》

专知会员服务

43+阅读 · 2025年11月13日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

25+阅读 · 2025年8月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

专知会员服务

19+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

Map2World: Segment Map Conditioned Text to 3D World Generation

Arxiv

0+阅读 · 5月1日

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

Arxiv

0+阅读 · 4月20日

LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation

Arxiv

0+阅读 · 4月13日

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员