Data provenance (the process of determining the origin and derivation of data outputs) has applications across multiple domains including explaining database query results and auditing scientific workflows. Despite decades of research, provenance tracing remains challenging due to its high computational cost and storage requirements. In streaming systems such as Apache Flink, fine-grained provenance graphs can grow super-linearly with data volume, posing significant scalability challenges. We define temporal attribution, a new lightweight form of provenance, appropriate for certain tasks, such as monitoring dependencies between system components over time quantitatively. Temporal attribution enables time-focused analysis that does not require fine-grained, tuple-level dependency meta-data. Inspired by volume-based provenance tracking in Temporal Interaction Networks (TINs), we demonstrate TINs' applicability in succinctly modeling quantified data exchanges between dataflow operators in stream data processing systems and in processing workflows, in general, over time. We classify data into discrete and liquid types, define five temporal provenance query types, and propose a state-based indexing approach. Our vision outlines research directions toward making this new form of temporal attribution a practical tool for large-scale dataflow analytics.


翻译:数据溯源(确定数据输出的来源与推导过程的技术)在多个领域具有应用价值,包括解释数据库查询结果和审计科学工作流。尽管已有数十年研究,但由于高昂的计算成本与存储需求,溯源追踪仍面临挑战。在Apache Flink等流处理系统中,细粒度溯源图的规模可能随数据量呈超线性增长,带来显著的可扩展性问题。我们定义了时间归因——一种适用于特定任务的新型轻量级溯源形式,例如定量监控系统组件间随时间变化的依赖关系。时间归因支持面向时间的分析,无需细粒度的元组级依赖元数据。受时序交互网络(TINs)中基于数据量的溯源追踪方法启发,我们展示了TINs在流数据处理系统及处理工作流中,对数据流算子间量化数据交换进行简洁建模的通用性。我们将数据分为离散型与液态型,定义了五类时间溯源查询,并提出基于状态的索引方法。本文勾勒了将这种新型时间归因发展为大规模数据流分析实用工具的研究方向。

0
下载
关闭预览

相关内容

以数据为中心的图机器学习
专知会员服务
38+阅读 · 2023年9月25日
专知会员服务
81+阅读 · 2021年3月20日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月10日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
以数据为中心的图机器学习
专知会员服务
38+阅读 · 2023年9月25日
专知会员服务
81+阅读 · 2021年3月20日
相关资讯
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员