Graph-centric cross-model data integration and analytics (GCDIA) refer to tasks that leverage the graph model as a central paradigm to integrate relevant information across heterogeneous data models, such as relational and document, and subsequently perform complex analytics such as regression and similarity computation. As modern applications generate increasingly diverse data and move beyond simple retrieval toward advanced analytical objectives (e.g., prediction and recommendation), GCDIA has become increasingly important. Existing multi-model databases (MMDBs) struggle to efficiently support both integration (GCDI) and analytics (GCDA) in GCDIA. They typically separate graph processing from other models without global optimization for GCDI, while relying on tuple-at-a-time execution for GCDA, leading to limited performance and scalability. To address these limitations, we propose GredoDB, a unified MMDB that natively supports storing graph, relational, and document models, while efficiently processing GCDIA. Specifically, we design 1) topology- and attribute-aware graph operators for efficient predicate-aware traversal, 2) a unified GCDI optimization framework to exploit cross-model correlations, and 3) a parallel GCDA architecture that materializes intermediate results for operator-level execution. Experiments on the widely adopted multi-model benchmark M2Bench demonstrate that, in terms of response time, GredoDB achieves up to 107.89 times and an average of 10.89 times speedup on GCDI, and up to 356.72 times and an average of 37.79 times on GCDA, compared to state-of-the-art (SOTA) MMDBs.


翻译:以图为中心的跨模型数据集成与分析(GCDIA)是指利用图模型作为核心范式,集成关系模型、文档模型等异构数据模型中的相关信息,并随后执行回归与相似度计算等复杂分析的任务。随着现代应用生成的数据日益多样化,且目标从简单检索转向预测与推荐等高级分析,GCDIA的重要性日益凸显。现有的多模型数据库(MMDB)难以高效支持GCDIA中的集成(GCDI)与分析(GCDA)任务。它们通常将图处理与其他模型分离,缺乏针对GCDI的全局优化,同时在执行GCDA时依赖逐元组处理,导致性能与可扩展性受限。为应对这些局限,我们提出了GredoDB,一个原生支持存储图、关系和文档模型,并能高效处理GCDIA的统一多模型数据库。具体而言,我们设计了:1)支持拓扑与属性感知的图算子,用于高效执行谓词感知遍历;2)利用跨模型关联的统一GCDI优化框架;3)物化中间结果以支持算子级执行的并行GCDA架构。在广泛采用的多模型基准测试集M2Bench上的实验表明,在响应时间方面,与当前最先进的(SOTA)多模型数据库相比,GredoDB在GCDI任务上最高可达到107.89倍、平均10.89倍的加速,在GCDA任务上最高可达到356.72倍、平均37.79倍的加速。

0
下载
关闭预览

相关内容

图数据库综述
专知会员服务
18+阅读 · 2025年6月2日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
专知会员服务
38+阅读 · 2020年12月22日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员