The continuous expansion of open data platforms and research repositories has led to a fragmented dataset ecosystem, posing significant challenges for cross-source data discovery and interpretation. To address these challenges, we introduce SeDa--a unified framework for dataset discovery, semantic annotation, and multi-entity augmented navigation. SeDa integrates more than 7.6 million datasets from over 200 platforms, spanning governmental, academic, and industrial domains. The framework first performs semantic extraction and standardization to harmonize heterogeneous metadata representations. On this basis, a topic-tagging mechanism constructs an extensible tag graph that supports thematic retrieval and cross-domain association, while a provenance assurance module embedded within the annotation process continuously validates dataset sources and monitors link availability to ensure reliability and traceability. Furthermore, SeDa employs a multi-entity augmented navigation strategy that organizes datasets within a knowledge space of sites, institutions, and enterprises, enabling contextual and provenance-aware exploration beyond traditional search paradigms. Comparative experiments with popular dataset search platforms, such as ChatPD and Google Dataset Search, demonstrate that SeDa achieves superior coverage, timeliness, and traceability. Taken together, SeDa establishes a foundation for trustworthy, semantically enriched, and globally scalable dataset exploration.


翻译:随着开放数据平台与研究存储库的持续扩张,数据集生态系统日益碎片化,给跨源数据发现与解读带来了重大挑战。为应对这些挑战,我们提出了SeDa——一个集数据集发现、语义标注与多实体增强导航于一体的统一框架。SeDa整合了来自200多个平台的超过760万个数据集,涵盖政府、学术及工业领域。该框架首先执行语义提取与标准化,以协调异构的元数据表示。在此基础上,一个主题标注机制构建了可扩展的标签图,支持主题检索与跨域关联;同时,嵌入在标注过程中的溯源保障模块持续验证数据集来源并监测链接可用性,以确保可靠性与可追溯性。此外,SeDa采用了一种多实体增强导航策略,将数据集组织在站点、机构与企业构成的知识空间中,实现了超越传统搜索范式的上下文感知与溯源感知的探索。与ChatPD、Google Dataset Search等主流数据集搜索平台的对比实验表明,SeDa在覆盖范围、时效性与可追溯性方面均表现更优。综上所述,SeDa为可信、语义丰富且具备全球可扩展性的数据集探索奠定了基础。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
高质量数据集实践指南(1.0)
专知会员服务
31+阅读 · 2025年7月25日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
68+阅读 · 2020年3月13日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
高质量数据集实践指南(1.0)
专知会员服务
31+阅读 · 2025年7月25日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
相关资讯
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
68+阅读 · 2020年3月13日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员