[CVPR2026]通过标记化实现多模态大语言模型对建筑平面图的理解、生成与编辑 - 专知VIP

会员服务 ·

0

CVPR 2026 · 大语言模型 ·

[CVPR2026]通过标记化实现多模态大语言模型对建筑平面图的理解、生成与编辑

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

建筑平面图设计要求对几何信息、语义特征及空间层级进行联合推理，这对于当前的 AI 系统而言仍是一项重大挑战。尽管近期的扩散模型与语言模型在视觉保真度上有所提升，但在连贯的空间推理与可控生成方面仍显不足。本文提出 HouseMind，这是一种将平面图的理解、生成与编辑统一于单一框架内的多模态大语言模型（MLLM）。我们引入了“离散房间实例标记（discrete room-instance tokens）”，构建起一个连接布局表示与符号推理的统一词表。通过多模态对齐与指令微调，该模型能够根据文本指令合成连贯且可控的布局。实验表明，该框架在保持高效性与本地部署能力的同时，实现了卓越的几何有效性与可控性。![]

成为VIP会员查看完整内容

0

相关内容

CVPR 2026

【CVPR2026】Mario：基于大语言模型的多模态图推理架构

【CVPR2026】Mario：基于大语言模型的多模态图推理架构

专知会员服务

13+阅读 · 3月8日

【CVPR2025】基于大语言模型的视频摘要生成

【CVPR2025】基于大语言模型的视频摘要生成

专知会员服务

12+阅读 · 2025年4月21日

融合知识图谱的大语言模型研究综述

融合知识图谱的大语言模型研究综述

专知会员服务

38+阅读 · 2025年4月18日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

【Nature Machine Intelligence】面向复杂系统建模的多模态图学习

【Nature Machine Intelligence】面向复杂系统建模的多模态图学习

专知会员服务

47+阅读 · 2023年12月19日

【WWW2023】面向结构化知识的预训练语言大模型

【WWW2023】面向结构化知识的预训练语言大模型

专知会员服务

60+阅读 · 2023年8月4日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

148+阅读 · 2020年10月21日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

极市平台

28+阅读 · 2020年3月2日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

CVPR2019| 04-17更新17篇论文及代码（目标检测、语义分割、损失函数、姿态估计等）

CVPR2019| 04-17更新17篇论文及代码（目标检测、语义分割、损失函数、姿态估计等）

极市平台

24+阅读 · 2019年4月17日

CVPR2019 | 03-23日更新6篇论文及代码汇总（三维重建、图像文本生成等）

CVPR2019 | 03-23日更新6篇论文及代码汇总（三维重建、图像文本生成等）

极市平台

14+阅读 · 2019年3月23日

【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)

【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)

泡泡机器人SLAM

30+阅读 · 2018年8月14日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于行为数据的设计知识提取及表达方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向产权语义空间的三维空间对象建模及可视化研究

国家自然科学基金

0+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

Arxiv

0+阅读 · 2月19日

Enhancing Building Semantics Preservation in AI Model Training with Large Language Model Encodings

Arxiv

0+阅读 · 2月17日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Adapting Vision-Language Models for E-commerce Understanding at Scale

Arxiv

0+阅读 · 2月12日

Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

Arxiv

0+阅读 · 2月9日

Student Perceptions of Large Language Models Use in Self-Reflection and Design Critique in Architecture Studio

Arxiv

0+阅读 · 2月3日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

Text2Structure3D: Graph-Based Generative Modeling of Equilibrium Structures with Diffusion Transformers

Arxiv

0+阅读 · 1月19日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

VIP会员

相关主题

大语言模型

相关VIP内容

【CVPR2026】Mario：基于大语言模型的多模态图推理架构

【CVPR2026】Mario：基于大语言模型的多模态图推理架构

专知会员服务

13+阅读 · 3月8日

【CVPR2025】基于大语言模型的视频摘要生成

【CVPR2025】基于大语言模型的视频摘要生成

专知会员服务

12+阅读 · 2025年4月21日

融合知识图谱的大语言模型研究综述

融合知识图谱的大语言模型研究综述

专知会员服务

38+阅读 · 2025年4月18日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

【Nature Machine Intelligence】面向复杂系统建模的多模态图学习

【Nature Machine Intelligence】面向复杂系统建模的多模态图学习

专知会员服务

47+阅读 · 2023年12月19日

【WWW2023】面向结构化知识的预训练语言大模型

【WWW2023】面向结构化知识的预训练语言大模型

专知会员服务

60+阅读 · 2023年8月4日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

148+阅读 · 2020年10月21日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

自动驾驶系统中的推理技术综述：开放挑战与新兴范式

算法战场：锻造陆军未来主导地位

[CVPR2026]通过标记化实现多模态大语言模型对建筑平面图的理解、生成与编辑

油价飙升考验特朗普政府对伊朗战略

相关资讯

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

极市平台

28+阅读 · 2020年3月2日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

CVPR2019| 04-17更新17篇论文及代码（目标检测、语义分割、损失函数、姿态估计等）

CVPR2019| 04-17更新17篇论文及代码（目标检测、语义分割、损失函数、姿态估计等）

极市平台

24+阅读 · 2019年4月17日

CVPR2019 | 03-23日更新6篇论文及代码汇总（三维重建、图像文本生成等）

CVPR2019 | 03-23日更新6篇论文及代码汇总（三维重建、图像文本生成等）

极市平台

14+阅读 · 2019年3月23日

【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)

【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)

泡泡机器人SLAM

30+阅读 · 2018年8月14日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

相关基金

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于行为数据的设计知识提取及表达方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向产权语义空间的三维空间对象建模及可视化研究

国家自然科学基金

0+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市建筑群空间分布模式的识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

Arxiv

0+阅读 · 2月19日

Enhancing Building Semantics Preservation in AI Model Training with Large Language Model Encodings

Arxiv

0+阅读 · 2月17日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Adapting Vision-Language Models for E-commerce Understanding at Scale

Arxiv

0+阅读 · 2月12日

Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

Arxiv

0+阅读 · 2月9日

Student Perceptions of Large Language Models Use in Self-Reflection and Design Critique in Architecture Studio

Arxiv

0+阅读 · 2月3日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

Text2Structure3D: Graph-Based Generative Modeling of Equilibrium Structures with Diffusion Transformers

Arxiv

0+阅读 · 1月19日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

微信扫码咨询专知VIP会员