Data provenance (the process of determining the origin and derivation of data outputs) has applications across multiple domains including explaining database query results and auditing scientific workflows. Despite decades of research, provenance tracing remains challenging due to computational costs and storage overhead. In streaming systems such as Apache Flink, provenance graphs can grow super-linearly with data volume, posing significant scalability challenges. Temporal provenance is a promising direction, attaching timestamps to provenance information, enabling time-focused queries without maintaining complete historical records. However, existing temporal provenance methods primarily focus on system-level debugging, leaving a gap in data management applications. This paper proposes an agenda that uses Temporal Interaction Networks (TINs) to represent temporal provenance efficiently. We demonstrate TINs' applicability across streaming systems, transportation networks, and financial networks. We classify data into discrete and liquid types, define five temporal provenance query types, and propose a state-based indexing approach. Our vision outlines research directions toward making temporal provenance a practical tool for large-scale dataflows.


翻译:数据溯源(即确定数据输出的来源与衍生过程)在多个领域具有重要应用,包括解释数据库查询结果与审计科学工作流。尽管经过数十年研究,由于计算成本与存储开销的限制,溯源追踪仍面临挑战。在Apache Flink等流式系统中,溯源图可能随数据量呈超线性增长,带来显著的可扩展性难题。时序溯源是一个前景广阔的研究方向,它通过为溯源信息附加时间戳,使得无需维护完整历史记录即可执行时间聚焦的查询。然而,现有时序溯源方法主要集中于系统级调试,在数据管理应用领域仍存在空白。本文提出一项研究议程,利用时序交互网络(TINs)高效表征时序溯源信息。我们论证了TINs在流式系统、交通网络与金融网络中的适用性。通过将数据划分为离散型与流动型两类,定义了五类时序溯源查询模式,并提出一种基于状态的索引方法。我们的研究愿景规划了将时序溯源发展为大规模数据流实用工具的研究路径。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
【牛津大学博士论文】关系数据的学习和推理,243页pdf
专知会员服务
54+阅读 · 2022年11月16日
时序知识图谱表示学习
专知会员服务
154+阅读 · 2022年9月17日
南大《时间序列分析 (Time Series Analysis)》课程,推荐!
专知会员服务
156+阅读 · 2022年3月31日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员