Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.


翻译:阀门、断路器这类工业产品由密集的技术规格定义,这些规格直接影响供应链中的采购、兼容性与安全性。尽管这些规格分散在规格表、铭牌和技术图纸等多张异构产品图像中,但多模态大语言模型能否可靠地恢复它们仍未得到充分探索。为弥补这一空白,我们提出IndustryBench-MIPU——首个面向多图像工业产品理解的大规模基准测试,其核心为结构化属性提取任务,即从产品图像中恢复属性-值对。该任务同时涉及规格表与铭牌上的文本识别、技术图纸的视觉推理、解码工业术语的领域知识,以及跨图像证据整合以组装分散的规格信息。具体而言,该基准测试涵盖18个工业类别下的4,559个产品、27,652张图像及103,703条标注,通过多模型共识与三级质量保障流程构建。在单图像与产品级多图像设置下评估九种多模态大语言模型,揭示了显著的完整性差距:模型可达到86%–94%的高精确率,但最优模型仅能恢复49.9%的产品级属性;从单图像提取过渡到多图像提取,召回率下降15至34个百分点。多图像完整性(而非单图像准确性)是核心瓶颈。数据集与代码已公开。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
【CVPR2023】基于混合融合的多模态工业异常检测
专知会员服务
46+阅读 · 2023年3月6日
专知会员服务
38+阅读 · 2021年10月19日
【PHM】NIST:PHM制造工艺流程技术和指标路线图
产业智能官
11+阅读 · 2019年1月13日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【CVPR2023】基于混合融合的多模态工业异常检测
专知会员服务
46+阅读 · 2023年3月6日
专知会员服务
38+阅读 · 2021年10月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员