Pairwise dependence measures such as correlation and causality are fundamental to temporal data mining, yet there is still no principled and robust way to quantify dependence between heterogeneous data types, especially between continuous time series and discrete temporal event sequences. Existing approaches rely on ad hoc transformations or mutual-information estimators that are highly sensitive to quantization, repeated values, and event redundancy, leading to biased or unstable results in practice. We propose a nonparametric mutual information estimator that directly measures the dependence between time series and event sequences without data transformation, learning, or ad hoc discretization. Our method models the continuous-discrete duality of real-world time series to handle quantization and repeated-value artifacts and introduces a latent event clustering strategy to mitigate bias from event co-occurrence and redundancy. Together, these yield a robust and unified framework that bridges discrete and continuous mutual information. We evaluate the proposed estimator on four representative tasks: discrete-continuous time-delayed mutual information for causality analysis, global and local temporal repetition discovery, discrete covariate selection for time series forecasting, and continuous feature selection for classification. Experiments on synthetic and real-world datasets show consistent improvements over existing methods in accuracy, robustness, and interpretability, positioning our approach as a general-purpose dependence operator for heterogeneous temporal data, similar to Pearson correlation for homogeneous time series. Code available at: https://github.com/HaojiHu/Multimodal-Temporal-Data-Quantification


翻译:成对依赖度量(如相关性和因果性)是时间数据挖掘的基础,但目前仍缺乏原则性且鲁棒的方法来量化异质数据类型之间的依赖关系,尤其是连续时间序列与离散时间事件序列之间的依赖关系。现有方法依赖于临时转换或互信息估计器,这些方法对量化误差、重复值和事件冗余高度敏感,导致实际应用中出现偏差或不稳定的结果。我们提出了一种非参数互信息估计器,可直接测量时间序列与事件序列之间的依赖关系,无需数据转换、学习或临时离散化。该方法通过建模真实世界时间序列的连续-离散双重性来处理量化误差和重复值伪影,并引入隐式事件聚类策略以缓解事件共现和冗余引起的偏差。这些技术共同构建了一个鲁棒且统一的框架,桥接了离散与连续互信息。我们通过四项代表性任务评估所提估计器:用于因果分析的离散-连续时延互信息、全局与局部时间重复模式发现、时间序列预测中的离散协变量选择,以及分类任务中的连续特征选择。在合成与真实数据集上的实验表明,该方法在准确性、鲁棒性和可解释性上相较于现有方法持续改进,使其成为异质时间数据的一种通用依赖算子,其应用广度类似于皮尔逊相关系数之于同质时间序列。代码开源:https://github.com/HaojiHu/Multimodal-Temporal-Data-Quantification

0
下载
关闭预览

相关内容

时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
南大《时间序列分析 (Time Series Analysis)》课程,推荐!
专知会员服务
156+阅读 · 2022年3月31日
专知会员服务
146+阅读 · 2021年2月3日
专知会员服务
237+阅读 · 2020年12月15日
专知会员服务
63+阅读 · 2020年3月4日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 31分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 48分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员