IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products - 专知论文

会员服务 ·

0

产品 · 属性 · 提取 · 基准 · 基准测试 ·

IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

翻译：IndustryBench-MIPU：面向工业产品的多图像属性值提取基准测试

Haonan Qi,Jin Cao,Yongqi Zhang,Xintong Wang,Weidong Tang,Bin Chen,Chengfu Huo,Haojun Pan,Hengyu You,Jing Li,Yingde Wang,Liang Ding

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.

翻译：阀门、断路器这类工业产品由密集的技术规格定义，这些规格直接影响供应链中的采购、兼容性与安全性。尽管这些规格分散在规格表、铭牌和技术图纸等多张异构产品图像中，但多模态大语言模型能否可靠地恢复它们仍未得到充分探索。为弥补这一空白，我们提出IndustryBench-MIPU——首个面向多图像工业产品理解的大规模基准测试，其核心为结构化属性提取任务，即从产品图像中恢复属性-值对。该任务同时涉及规格表与铭牌上的文本识别、技术图纸的视觉推理、解码工业术语的领域知识，以及跨图像证据整合以组装分散的规格信息。具体而言，该基准测试涵盖18个工业类别下的4,559个产品、27,652张图像及103,703条标注，通过多模型共识与三级质量保障流程构建。在单图像与产品级多图像设置下评估九种多模态大语言模型，揭示了显著的完整性差距：模型可达到86%–94%的高精确率，但最优模型仅能恢复49.9%的产品级属性；从单图像提取过渡到多图像提取，召回率下降15至34个百分点。多图像完整性（而非单图像准确性）是核心瓶颈。数据集与代码已公开。

0

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【CVPR2023】基于混合融合的多模态工业异常检测

【CVPR2023】基于混合融合的多模态工业异常检测

专知会员服务

46+阅读 · 2023年3月6日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

安全多方计算及其在机器学习中的应用

专知会员服务

38+阅读 · 2021年10月19日

【EMNLP2020-京东】电子商务产品的多模态联合属性预测与属性值提取

【EMNLP2020-京东】电子商务产品的多模态联合属性预测与属性值提取

专知会员服务

21+阅读 · 2020年9月17日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【ACM综述】工业4.0人机交互综述论文，45页pdf，A Survey on Human Machine Interaction in Industry 4.0

【ACM综述】工业4.0人机交互综述论文，45页pdf，A Survey on Human Machine Interaction in Industry 4.0

专知会员服务

60+阅读 · 2020年2月6日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

产业智能官

18+阅读 · 2019年1月3日

品质检测破局：工业视觉检测云平台为智能制造“点睛”

品质检测破局：工业视觉检测云平台为智能制造“点睛”

AI100

12+阅读 · 2018年11月6日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

【质量检测】机器视觉表面缺陷检测综述

【质量检测】机器视觉表面缺陷检测综述

产业智能官

30+阅读 · 2018年9月24日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

MVM-IOD: An Industrial Object-Centric Benchmark Dataset for the Evaluation of 3D Reconstruction Methods

Arxiv

0+阅读 · 6月15日

DifferAD-R1: A Difference-Guided IndustrialAnomaly Localization with Multimodal LargeLanguage Models

Arxiv

0+阅读 · 6月15日

WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Arxiv

0+阅读 · 6月12日

FactoryLLM: A Safe and Open-Source AI Playground for Evaluating LLMs in Smart Factories

Arxiv

0+阅读 · 6月12日

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

Arxiv

0+阅读 · 6月11日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces

Arxiv

0+阅读 · 5月27日

FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing

Arxiv

0+阅读 · 5月26日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

6+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【CVPR2023】基于混合融合的多模态工业异常检测

【CVPR2023】基于混合融合的多模态工业异常检测

专知会员服务

46+阅读 · 2023年3月6日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

安全多方计算及其在机器学习中的应用

专知会员服务

38+阅读 · 2021年10月19日

【EMNLP2020-京东】电子商务产品的多模态联合属性预测与属性值提取

【EMNLP2020-京东】电子商务产品的多模态联合属性预测与属性值提取

专知会员服务

21+阅读 · 2020年9月17日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【ACM综述】工业4.0人机交互综述论文，45页pdf，A Survey on Human Machine Interaction in Industry 4.0

【ACM综述】工业4.0人机交互综述论文，45页pdf，A Survey on Human Machine Interaction in Industry 4.0

专知会员服务

60+阅读 · 2020年2月6日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

【PHM】NIST：PHM制造工艺流程技术和指标路线图

【PHM】NIST：PHM制造工艺流程技术和指标路线图

产业智能官

11+阅读 · 2019年1月13日

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

产业智能官

18+阅读 · 2019年1月3日

品质检测破局：工业视觉检测云平台为智能制造“点睛”

品质检测破局：工业视觉检测云平台为智能制造“点睛”

AI100

12+阅读 · 2018年11月6日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

【质量检测】机器视觉表面缺陷检测综述

【质量检测】机器视觉表面缺陷检测综述

产业智能官

30+阅读 · 2018年9月24日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

相关论文

MVM-IOD: An Industrial Object-Centric Benchmark Dataset for the Evaluation of 3D Reconstruction Methods

Arxiv

0+阅读 · 6月15日

DifferAD-R1: A Difference-Guided IndustrialAnomaly Localization with Multimodal LargeLanguage Models

Arxiv

0+阅读 · 6月15日

WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Arxiv

0+阅读 · 6月12日

FactoryLLM: A Safe and Open-Source AI Playground for Evaluating LLMs in Smart Factories

Arxiv

0+阅读 · 6月12日

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

Arxiv

0+阅读 · 6月11日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces

Arxiv

0+阅读 · 5月27日

FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing

Arxiv

0+阅读 · 5月26日

相关基金

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员