建筑平面图设计要求对几何信息、语义特征及空间层级进行联合推理,这对于当前的 AI 系统而言仍是一项重大挑战。尽管近期的扩散模型与语言模型在视觉保真度上有所提升,但在连贯的空间推理与可控生成方面仍显不足。本文提出 HouseMind,这是一种将平面图的理解、生成与编辑统一于单一框架内的多模态大语言模型(MLLM)。我们引入了“离散房间实例标记(discrete room-instance tokens)”,构建起一个连接布局表示与符号推理的统一词表。通过多模态对齐与指令微调,该模型能够根据文本指令合成连贯且可控的布局。实验表明,该框架在保持高效性与本地部署能力的同时,实现了卓越的几何有效性与可控性。![]

成为VIP会员查看完整内容
0

相关内容

【CVPR2025】基于大语言模型的视频摘要生成
专知会员服务
12+阅读 · 2025年4月21日
融合知识图谱的大语言模型研究综述
专知会员服务
38+阅读 · 2025年4月18日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
【WWW2023】面向结构化知识的预训练语言大模型
专知会员服务
60+阅读 · 2023年8月4日
专知会员服务
17+阅读 · 2021年4月27日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
【CVPR2019教程】视频理解中的图表示学习
专知
43+阅读 · 2019年6月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
69+阅读 · 2022年9月7日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员