Decades of engineering drawings and technical records remain locked in legacy archives with inconsistent or missing metadata, making retrieval difficult and often manual. We present Blueprint, a layout-aware multimodal retrieval system designed for large-scale engineering repositories. Blueprint detects canonical drawing regions, applies region-restricted VLM-based OCR, normalizes identifiers (e.g., DWG, part, facility), and fuses lexical and dense retrieval with a lightweight region-level reranker. Deployed on ~770k unlabeled files, it automatically produces structured metadata suitable for cross-facility search. We evaluate Blueprint on a 5k-file benchmark with 350 expert-curated queries using pooled, graded (0/1/2) relevance judgments. Blueprint delivers a 10.1% absolute gain in Success@3 and an 18.9% relative improvement in nDCG@3 over the strongest vision-language baseline}, consistently outperforming across vision, text, and multimodal intents. Oracle ablations reveal substantial headroom under perfect region detection and OCR. We release all queries, runs, annotations, and code to facilitate reproducible evaluation on legacy engineering archives.


翻译:数十年的工程图纸与技术记录仍封存于遗留档案中,其元数据不一致或缺失,导致检索困难且常需人工操作。本文提出Blueprint,一种专为大规模工程资料库设计的布局感知多模态检索系统。该系统能够检测标准图纸区域,应用基于区域限制的视觉语言模型OCR技术,规范化标识符(如DWG编号、零件号、设施代码),并通过轻量级区域级重排序器融合词法与稠密检索。在约77万份未标注文件上部署后,系统能自动生成适用于跨设施搜索的结构化元数据。我们在包含350个专家精心设计查询的5千文件基准集上,采用池化分级(0/1/2)相关性评估方法对Blueprint进行评测。相较于最强的视觉语言基线,Blueprint在Success@3指标上实现10.1%的绝对提升,在nDCG@3指标上获得18.9%的相对改进,且在视觉、文本及多模态检索意图上均表现优异。通过理想区域检测与OCR的模拟消融实验,揭示了系统存在显著的性能提升空间。我们公开全部查询集、运行结果、标注数据及代码,以促进遗留工程档案的可复现评估研究。

0
下载
关闭预览

相关内容

多模态知识图谱构建技术及其在军事领域的应用综述
专知会员服务
44+阅读 · 2024年12月6日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
航空制造知识图谱构建研究综述
专知
37+阅读 · 2022年4月26日
论文浅尝 - CIKM2020 | 用于推荐系统的多模态知识图谱
开放知识图谱
12+阅读 · 2020年12月17日
技术动态 | 多模态知识图谱
开放知识图谱
38+阅读 · 2020年8月5日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员