Identifying the full landscape of small and medium-sized enterprises (SMEs) in specialized industry sectors is critical for supply-chain resilience, yet existing business databases suffer from substantial coverage gaps -- particularly for sub-tier suppliers and firms in emerging niche markets. We propose a \textbf{Web--Knowledge--Web (W$\to$K$\to$W)} pipeline that iteratively (1)~crawls domain-specific web sources to discover candidate supplier entities, (2)~extracts and consolidates structured knowledge into a heterogeneous knowledge graph, and (3)~uses the knowledge graph's topology and coverage signals to guide subsequent crawling toward under-represented regions of the supplier space. To quantify discovery completeness, we introduce a \textbf{coverage estimation framework} inspired by ecological species-richness estimators (Chao1, ACE) adapted for web-entity populations. Experiments on the semiconductor equipment manufacturing sector (NAICS 333242) demonstrate that the W$\to$K$\to$W pipeline achieves the highest precision (0.138) and F1 (0.118) among all methods using the same 213-page crawl budget, building a knowledge graph of 765 entities and 586 relations while reaching peak recall by iteration~3 with only 112 pages.


翻译:识别专业产业领域内中小型企业的完整格局对于供应链韧性至关重要,然而现有的商业数据库存在显著的覆盖缺口——特别是对于次级供应商和新兴利基市场中的企业。我们提出了一种**Web--Knowledge--Web (W→K→W)** 流水线,该流水线迭代地(1)爬取领域特定的网络资源以发现候选供应商实体,(2)提取并整合结构化知识到一个异质知识图谱中,以及(3)利用知识图谱的拓扑结构和覆盖信号来指导后续爬虫朝向供应商空间中代表性不足的区域。为了量化发现的完整性,我们引入了一个**覆盖估计框架**,其灵感来源于适用于网络实体种群的生态学物种丰富度估计方法(Chao1, ACE)。在半导体设备制造领域(NAICS 333242)的实验表明,在使用相同的213页爬取预算的所有方法中,W→K→W流水线实现了最高的精确率(0.138)和F1分数(0.118),构建了一个包含765个实体和586个关系的知识图谱,并且仅用112页就在第3次迭代时达到了峰值召回率。

0
下载
关闭预览

相关内容

专知会员服务
35+阅读 · 2021年5月10日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
领域应用 | 到底什么时候使用图数据库?
开放知识图谱
16+阅读 · 2019年4月19日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
11+阅读 · 2018年4月13日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
6+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
4+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
11+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
18+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
3+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关VIP内容
专知会员服务
35+阅读 · 2021年5月10日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
领域应用 | 到底什么时候使用图数据库?
开放知识图谱
16+阅读 · 2019年4月19日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
11+阅读 · 2018年4月13日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员