WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos - 专知论文

会员服务 ·

0

数据库 · 协同 · 协同学 · 协同学习 · 数据管理 ·

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

翻译：WikiDBGraph：面向数据库孤岛协同学习的数据管理基准测试套件

Zhaomin Wu,Ziyang Wang,Bingsheng He

from arxiv, ICDE 2026

Relational databases are often fragmented across organizations, creating data silos that hinder distributed data management and mining. Collaborative learning (CL) -- techniques that enable multiple parties to train models jointly without sharing raw data -- offers a principled approach to this challenge. However, existing CL frameworks (e.g., federated and split learning) remain limited in real-world deployments. Current CL benchmarks and algorithms primarily target the learning step under assumptions of isolated, aligned, and joinable databases, and they typically neglect the end-to-end data management pipeline, especially preprocessing steps such as table joins and data alignment. In contrast, our analysis of the real-world corpus WikiDBs shows that databases are interconnected, unaligned, and sometimes unjoinable, exposing a significant gap between CL algorithm design and practical deployment. To close this evaluation gap, we build WikiDBGraph, a large-scale dataset constructed from 100{,}000 real-world relational databases linked by 17 million weighted edges. Each node (database) and edge (relationship) is annotated with 13 and 12 properties, respectively, capturing a hybrid of instance- and feature-level overlap across databases. Experiments on WikiDBGraph demonstrate both the effectiveness and limitations of existing CL methods under realistic conditions, highlighting previously overlooked gaps in managing real-world data silos and pointing to concrete directions for practical deployment of collaborative learning systems.

翻译：关系型数据库常分散于不同组织，形成阻碍分布式数据管理与挖掘的数据孤岛。协同学习——允许多方在不共享原始数据的情况下联合训练模型的技术——为解决这一挑战提供了原则性方法。然而，现有协同学习框架（如联邦学习与分割学习）在实际部署中仍存在局限。当前协同学习基准测试与算法主要针对孤立、对齐且可连接数据库假设下的学习步骤，通常忽略端到端数据管理流程，特别是表连接与数据对齐等预处理环节。与此相对，我们对真实世界语料库WikiDBs的分析表明，数据库实际存在互连、未对齐甚至不可连接的情况，这暴露出协同学习算法设计与实际部署间的显著差距。为弥合此评估鸿沟，我们构建了WikiDBGraph——一个通过1700万条加权边连接的10万个真实世界关系型数据库构成的大规模数据集。每个节点（数据库）与边（关系）分别标注有13项和12项属性，刻画了数据库间实例级与特征级重叠的混合特征。在WikiDBGraph上的实验既证明了现有协同学习方法在真实条件下的有效性，也揭示了其局限性，凸显了管理现实数据孤岛时先前被忽视的差距，并为协同学习系统的实际部署指明了具体方向。

0

相关内容

数据库

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

专知会员服务

36+阅读 · 2023年11月30日

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

专知会员服务

25+阅读 · 2023年8月27日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知会员服务

37+阅读 · 2022年6月5日

鲁棒和隐私保护的协同学习

鲁棒和隐私保护的协同学习

专知会员服务

38+阅读 · 2021年12月22日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

联邦学习或将助力IoT走出“数据孤岛”？

联邦学习或将助力IoT走出“数据孤岛”？

中国计算机学会

20+阅读 · 2019年3月16日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning

Arxiv

0+阅读 · 3月16日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Arxiv

0+阅读 · 3月9日

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Arxiv

0+阅读 · 3月9日

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

Arxiv

0+阅读 · 2月26日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

FedHENet: A Frugal Federated Learning Framework for Heterogeneous Environments

Arxiv

0+阅读 · 2月13日

FedPS: Federated data Preprocessing via aggregated Statistics

Arxiv

0+阅读 · 2月11日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

什么是关系深度学习？斯坦福Jure Leskovec《关系深度学习：关系数据库上的图表示学习》最新报告与论文

专知会员服务

36+阅读 · 2023年11月30日

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

专知会员服务

25+阅读 · 2023年8月27日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知会员服务

37+阅读 · 2022年6月5日

鲁棒和隐私保护的协同学习

鲁棒和隐私保护的协同学习

专知会员服务

38+阅读 · 2021年12月22日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

联邦学习或将助力IoT走出“数据孤岛”？

联邦学习或将助力IoT走出“数据孤岛”？

中国计算机学会

20+阅读 · 2019年3月16日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

相关论文

DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning

Arxiv

0+阅读 · 3月16日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Arxiv

0+阅读 · 3月9日

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Arxiv

0+阅读 · 3月9日

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

Arxiv

0+阅读 · 2月26日

CACTUSDB: Unlock Co-Optimization Opportunities for SQL and AI/ML Inferences

Arxiv

0+阅读 · 2月26日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

FedHENet: A Frugal Federated Learning Framework for Heterogeneous Environments

Arxiv

0+阅读 · 2月13日

FedPS: Federated data Preprocessing via aggregated Statistics

Arxiv

0+阅读 · 2月11日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员