Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual understanding, yet they suffer from a critical limitation: structural blindness. Even state-of-the-art models fail to capture topology and symbolic logic in engineering schematics, as their pixel-driven paradigm discards the explicit vector-defined relations needed for reasoning. To overcome this, we propose a Vector-to-Graph (V2G) pipeline that converts CAD diagrams into property graphs where nodes represent components and edges encode connectivity, making structural dependencies explicit and machine-auditable. On a diagnostic benchmark of electrical compliance checks, V2G yields large accuracy gains across all error categories, while leading MLLMs remain near chance level. These results highlight the systemic inadequacy of pixel-based methods and demonstrate that structure-aware representations provide a reliable path toward practical deployment of multimodal AI in engineering domains. To facilitate further research, we release our benchmark and implementation at https://github.com/gm-embodied/V2G-Audit.


翻译:多模态大语言模型(MLLMs)在视觉理解方面取得了显著进展,但仍存在一个关键局限:结构盲区。即使是当前最先进的模型,也无法捕捉工程原理图中的拓扑结构和符号逻辑,因为其基于像素的范式丢弃了推理所需的、由向量明确定义的关系。为克服此问题,我们提出了一种向量到图(V2G)流程,该流程将CAD图转换为属性图,其中节点代表组件,边编码连接关系,从而使结构依赖关系显式化且可供机器审核。在一个用于电气合规性检查的诊断基准测试中,V2G在所有错误类别上都带来了大幅度的准确率提升,而领先的MLLMs表现仍接近随机水平。这些结果凸显了基于像素方法的系统性不足,并证明了结构感知的表征为实现多模态人工智能在工程领域的实际部署提供了一条可靠路径。为促进进一步研究,我们在 https://github.com/gm-embodied/V2G-Audit 发布了我们的基准测试和实现。

0
下载
关闭预览

相关内容

视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
基于深度学习的超分辨率图像技术一览
极市平台
17+阅读 · 2019年8月24日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员