建筑平面图设计要求对几何信息、语义特征及空间层级进行联合推理,这对于当前的 AI 系统而言仍是一项重大挑战。尽管近期的扩散模型与语言模型在视觉保真度上有所提升,但在连贯的空间推理与可控生成方面仍显不足。本文提出 HouseMind,这是一种将平面图的理解、生成与编辑统一于单一框架内的多模态大语言模型(MLLM)。我们引入了“离散房间实例标记(discrete room-instance tokens)”,构建起一个连接布局表示与符号推理的统一词表。通过多模态对齐与指令微调,该模型能够根据文本指令合成连贯且可控的布局。实验表明,该框架在保持高效性与本地部署能力的同时,实现了卓越的几何有效性与可控性。![]