Data Profiling for Change Rules - 专知论文

会员服务 ·

0

分析 · 属性 · 序列 · 识别 · 数据库 ·

Data Profiling for Change Rules

翻译：数据变更规则分析

Nishttha Sharma,Fei Chiang

from arxiv, 17 pages, 8 figures, DAWAK 2026

Understanding data change is critical towards understanding trends, normal vs. abnormal behaviours, recognizing patterns, and the causes of change. Existing database systems have limited support for change management, relying on statistics, triggers, and constraints. Data quality rules model sequential changes along a restricted set of attributes, quantify change among unordered tuples, and have limited ability to model the context under which attribute changes occur. In this paper, we introduce Change Rules (CRs) that quantify the sequential changes among ordered tuples in both the antecedent and consequent attributes. CRs aim to address the limitations of existing declarative dependencies to support trend analysis and causal relationships that trigger change among attributes. We propose CR-Miner, an automated algorithm for CR discovery that generates candidate change intervals in a level-wise manner. Experimental results show that CR-Miner achieves an average runtime improvement of 40-50% over existing baselines.

翻译：理解数据变更对于洞悉趋势、区分正常与异常行为、识别模式以及分析变更成因至关重要。现有数据库系统对变更管理的支持有限，主要依赖统计信息、触发器和约束条件。数据质量规则仅能沿有限属性集建模序列变更，量化无序元组间的变更程度，且对属性变更发生的上下文建模能力不足。本文提出变更规则（Change Rules, CRs），该规则可量化有序元组在前项与后项属性上的序列变更。CRs旨在弥补现有声明式依赖的局限，以支持趋势分析及触发属性变更的因果关系探索。我们提出了CR-Miner算法，通过逐层生成候选变更区间实现CR的自动化发现。实验结果表明，与现有基准方法相比，CR-Miner平均运行效率提升40-50%。

0

相关内容

《数据安全技术数据分类分级规则》发布

《数据安全技术数据分类分级规则》发布

专知会员服务

32+阅读 · 2024年3月22日

【干货书】数据分析优化，Optimization for Modern Data Analysis，117页pdf

【干货书】数据分析优化，Optimization for Modern Data Analysis，117页pdf

专知会员服务

66+阅读 · 2023年2月15日

国家标准《物联网数据质量》（征求意见稿）

国家标准《物联网数据质量》（征求意见稿）

专知会员服务

52+阅读 · 2022年9月13日

数据治理研究报告——数据要素权益配置路径（2022年），50页pdf

数据治理研究报告——数据要素权益配置路径（2022年），50页pdf

专知会员服务

43+阅读 · 2022年7月19日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

专知会员服务

67+阅读 · 2022年3月28日

【白皮书】数据分析从理念到实操，44页pdf（附下载链接）

【白皮书】数据分析从理念到实操，44页pdf（附下载链接）

专知会员服务

62+阅读 · 2021年4月26日

大数据平台安全研究报告，36页pdf

专知会员服务

37+阅读 · 2021年2月26日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【数据治理】数据治理怎么做？这篇万字长文终于讲清楚了！

【数据治理】数据治理怎么做？这篇万字长文终于讲清楚了！

产业智能官

14+阅读 · 2020年6月16日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

数据分析师应该知道的16种回归方法：定序回归

数据分析师应该知道的16种回归方法：定序回归

数萃大数据

16+阅读 · 2018年9月9日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

13+阅读 · 2017年10月28日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

Quantifying the Agreement Between Data-Influence and Data-Similarity to Understand LLM Behavior

Arxiv

0+阅读 · 6月22日

Data Pruning: Redundant, Problematic, and Interdependent Samples

Arxiv

0+阅读 · 6月20日

Signed Evidence Flow: Conflict-Aware and Stability-Calibrated Data Analysis

Arxiv

0+阅读 · 6月20日

Baseline: Operation-Based Evolution and Versioning of Data

Arxiv

0+阅读 · 6月17日

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Robust Transformer-Based One-Step Stock Index Forecasting via Shifted Data Augmentation

Arxiv

0+阅读 · 6月14日

State Machine Guided Multi-Relational Synthetic Data from Logs for Anomaly Detection

Arxiv

0+阅读 · 5月30日

A Reference Model and Patterns for Production Event Data Enrichment

Arxiv

0+阅读 · 5月18日

On the Fragility of Data Attribution When Learning Is Distributed

Arxiv

0+阅读 · 5月15日

Data Management For Large Language Models: A Survey

Arxiv

17+阅读 · 2023年12月4日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

10+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

8+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

10+阅读 · 7月31日

相关VIP内容

《数据安全技术数据分类分级规则》发布

《数据安全技术数据分类分级规则》发布

专知会员服务

32+阅读 · 2024年3月22日

【干货书】数据分析优化，Optimization for Modern Data Analysis，117页pdf

【干货书】数据分析优化，Optimization for Modern Data Analysis，117页pdf

专知会员服务

66+阅读 · 2023年2月15日

国家标准《物联网数据质量》（征求意见稿）

国家标准《物联网数据质量》（征求意见稿）

专知会员服务

52+阅读 · 2022年9月13日

数据治理研究报告——数据要素权益配置路径（2022年），50页pdf

数据治理研究报告——数据要素权益配置路径（2022年），50页pdf

专知会员服务

43+阅读 · 2022年7月19日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

强化学习如何做数据分析？新加坡国立等最新TKDE2022《深度强化学习数据处理与分析》综述论文阐述DRL数据分析落地应用

专知会员服务

67+阅读 · 2022年3月28日

【白皮书】数据分析从理念到实操，44页pdf（附下载链接）

【白皮书】数据分析从理念到实操，44页pdf（附下载链接）

专知会员服务

62+阅读 · 2021年4月26日

大数据平台安全研究报告，36页pdf

专知会员服务

37+阅读 · 2021年2月26日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【数据治理】数据治理怎么做？这篇万字长文终于讲清楚了！

【数据治理】数据治理怎么做？这篇万字长文终于讲清楚了！

产业智能官

14+阅读 · 2020年6月16日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

数据分析师应该知道的16种回归方法：定序回归

数据分析师应该知道的16种回归方法：定序回归

数萃大数据

16+阅读 · 2018年9月9日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

13+阅读 · 2017年10月28日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

Quantifying the Agreement Between Data-Influence and Data-Similarity to Understand LLM Behavior

Arxiv

0+阅读 · 6月22日

Data Pruning: Redundant, Problematic, and Interdependent Samples

Arxiv

0+阅读 · 6月20日

Signed Evidence Flow: Conflict-Aware and Stability-Calibrated Data Analysis

Arxiv

0+阅读 · 6月20日

Baseline: Operation-Based Evolution and Versioning of Data

Arxiv

0+阅读 · 6月17日

Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis

Arxiv

0+阅读 · 6月15日

Robust Transformer-Based One-Step Stock Index Forecasting via Shifted Data Augmentation

Arxiv

0+阅读 · 6月14日

State Machine Guided Multi-Relational Synthetic Data from Logs for Anomaly Detection

Arxiv

0+阅读 · 5月30日

A Reference Model and Patterns for Production Event Data Enrichment

Arxiv

0+阅读 · 5月18日

On the Fragility of Data Attribution When Learning Is Distributed

Arxiv

0+阅读 · 5月15日

Data Management For Large Language Models: A Survey

Arxiv

17+阅读 · 2023年12月4日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员