Synthetic Homes: A Multimodal Generative AI Pipeline for Residential Building Data Generation under Data Scarcity - 专知论文

会员服务 ·

0

合成 · 分析 · 多模 · 模态 · 能耗建模 ·

Synthetic Homes: A Multimodal Generative AI Pipeline for Residential Building Data Generation under Data Scarcity

翻译：合成住宅：面向数据稀缺条件下住宅建筑数据生成的多模态生成式AI流程

Jackson Eshbaugh,Chetan Tiwari,Jorge Silveyra

from arxiv, 33 pages; 2 appendices; 6 figures; 2 tables. Code available at https://github.com/Lafayette-EshbaughSilveyra-Group/synthetic-homes

Computational models have emerged as powerful tools for multi-scale energy modeling research at the building and urban scale, supporting data-driven analysis across building and urban energy systems. However, these models require large amounts of building parameter data that is often inaccessible, expensive to collect, or subject to privacy constraints. We introduce a modular, multimodal generative Artificial Intelligence (AI) framework that integrates image, tabular, and simulation-based components and produces synthetic residential building datasets from publicly available county records and images, and present an end-to-end pipeline instantiating this framework. To reduce typical Large Language Model (LLM) challenges, we evaluate our model's components using occlusion-based visual focus analysis. Our analysis demonstrates that our selected vision-language model achieves significantly stronger visual focus than a GPT-based alternative for building image processing. We also assess realism of our results against a national reference dataset. Our synthetic data overlaps more than 65% with the reference dataset across all evaluated parameters and greater than 90% for three of the four. This work reduces dependence on costly or restricted data sources, lowering barriers to building-scale energy research and Machine Learning (ML)-driven urban energy modeling, and therefore enabling scalable downstream tasks such as energy modeling, retrofit analysis, and urban-scale simulation under data scarcity.

翻译：计算模型已成为在建筑与城市尺度上进行多尺度能耗建模研究的强大工具，支撑着建筑与城市能源系统的数据驱动分析。然而，这类模型需要大量建筑参数数据，而这些数据往往难以获取、采集成本高昂或受隐私约束限制。我们提出了一种模块化的多模态生成式人工智能框架，该框架集成了图像、表格数据和仿真组件，能够利用公开的县级记录和图像生成合成住宅建筑数据集，并给出了实现该框架的端到端流程。为减少典型大语言模型的挑战，我们采用基于遮挡的视觉焦点分析方法评估模型各组件。分析表明，所选视觉-语言模型在建筑图像处理方面展现出显著优于基于GPT替代方案的视觉聚焦能力。我们还通过与全国参考数据集的比对来评估结果的真实性。我们的合成数据在所有评估参数上与参考数据集的重叠度超过65%，其中四个参数中有三个的重叠度超过90%。这项工作减少了对成本高昂或受限数据源的依赖，降低了建筑尺度能耗研究与机器学习驱动城市能耗建模的门槛，从而在数据稀缺条件下实现了可扩展的下游任务，如能耗建模、改造分析和城市尺度模拟。

0

相关内容

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

专知会员服务

43+阅读 · 2024年2月2日

【斯坦福博士论文】为人工智能生成内容，以及人工智能生成的内容：用于并来自机器学习的合成数据，155页pdf

【斯坦福博士论文】为人工智能生成内容，以及人工智能生成的内容：用于并来自机器学习的合成数据，155页pdf

专知会员服务

58+阅读 · 2024年2月1日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

数据约束下如何做生成模型？SUTD最新《有限数据、少量样本和零样本下的生成建模》综述

数据约束下如何做生成模型？SUTD最新《有限数据、少量样本和零样本下的生成建模》综述

专知会员服务

51+阅读 · 2023年7月31日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

【学科发展报告】智慧城市

【学科发展报告】智慧城市

中国自动化学会

10+阅读 · 2019年1月14日

讲堂|郑宇：多源数据融合与时空数据挖掘（下）

讲堂|郑宇：多源数据融合与时空数据挖掘（下）

微软研究院AI头条

18+阅读 · 2017年4月18日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

State-Grounded Multi-Agent Synthetic Data Generation for Tool-Augmented LLMs

Arxiv

0+阅读 · 6月15日

PhysAgent: Automating Physics-Based 4D Synthesis via Trajectory-Grounded Multi-Agent Feedback

Arxiv

0+阅读 · 6月7日

Architectural Evolution and Selection Framework for Database Systems in AI-Ready Data Platforms

Arxiv

0+阅读 · 6月6日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 6月1日

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

Arxiv

0+阅读 · 4月28日

Synthetic data in cryptocurrencies using generative models

Arxiv

0+阅读 · 4月17日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

3+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

专知会员服务

43+阅读 · 2024年2月2日

【斯坦福博士论文】为人工智能生成内容，以及人工智能生成的内容：用于并来自机器学习的合成数据，155页pdf

【斯坦福博士论文】为人工智能生成内容，以及人工智能生成的内容：用于并来自机器学习的合成数据，155页pdf

专知会员服务

58+阅读 · 2024年2月1日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

数据约束下如何做生成模型？SUTD最新《有限数据、少量样本和零样本下的生成建模》综述

数据约束下如何做生成模型？SUTD最新《有限数据、少量样本和零样本下的生成建模》综述

专知会员服务

51+阅读 · 2023年7月31日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

【学科发展报告】智慧城市

【学科发展报告】智慧城市

中国自动化学会

10+阅读 · 2019年1月14日

讲堂|郑宇：多源数据融合与时空数据挖掘（下）

讲堂|郑宇：多源数据融合与时空数据挖掘（下）

微软研究院AI头条

18+阅读 · 2017年4月18日

相关论文

State-Grounded Multi-Agent Synthetic Data Generation for Tool-Augmented LLMs

Arxiv

0+阅读 · 6月15日

PhysAgent: Automating Physics-Based 4D Synthesis via Trajectory-Grounded Multi-Agent Feedback

Arxiv

0+阅读 · 6月7日

Architectural Evolution and Selection Framework for Database Systems in AI-Ready Data Platforms

Arxiv

0+阅读 · 6月6日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 6月1日

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

Arxiv

0+阅读 · 4月28日

Synthetic data in cryptocurrencies using generative models

Arxiv

0+阅读 · 4月17日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员