Data stream mining is fundamentally challenged by concept drift, where distributional changes can degrade model performance. Despite the proliferation of drift detection methods, progress in the field is hindered by inconsistent evaluation practices: studies rely on oversimplified synthetic data generators, adopt incompatible metrics, and lack transparency in hyperparameter selection, making fair comparisons difficult. We address this gap with a novel benchmarking framework comprising three contributions: (1) a drift simulation method that injects controlled distributional changes into real-world datasets via Monte Carlo trials, enabling supervised evaluation while preserving real-world data complexity; (2) an evaluation protocol for drift detection with timing-aware criteria, including the derivation of new metrics (e.g., F1 detection score, normalized detection time) that are comparable across streams; and (3) we advocate for a leave-one-dataset-out hyperparameter optimization protocol for drift detection methods that promotes configuration robustness across heterogeneous stream dynamics. We benchmark 14 widely used drift detection methods on 7 realworld datasets across 4 drift types (class prior, label swap, feature permutation, feature filtering), each under both abrupt and gradual transitions. Our experimental results provide insights into the strengths and weaknesses of current drift detection approaches while establishing baseline performance metrics for future research in this area. All code and experiments are publicly available.


翻译:数据流挖掘面临的根本性挑战是概念漂移——分布变化可能导致模型性能下降。尽管漂移检测方法层出不穷,但该领域的进展因评估实践不一致而受阻:研究依赖过度简化的合成数据生成器、采用不兼容的评估指标,且超参数选择缺乏透明度,使得公平比较难以实现。我们提出了一种新型基准测试框架来解决这一问题,该框架包含三方面贡献:(1)一种通过蒙特卡洛试验向真实数据集注入可控分布变化的漂移模拟方法,在保留真实数据复杂性的同时实现监督式评估;(2)一套具备时序感知准则的漂移检测评估协议,包括推导可在多数据流间比较的新指标(如F1检测得分、归一化检测时间);(3)我们倡导针对漂移检测方法采用留一数据集超参数优化协议,以促进方法配置在异构数据流动态中的鲁棒性。我们在4类漂移类型(先验类别漂移、标签互换、特征排列、特征过滤)下,对7个真实数据集上的14种常用漂移检测方法进行了基准测试,每类漂移均包含突变和渐变两种模式。实验结果揭示了当前漂移检测方法的优势与局限性,并为该领域的未来研究建立了基线性能指标。所有代码与实验均已公开。

0
下载
关闭预览

相关内容

【AAAI 2022】基于数据分布生成的可预测概念漂移适应
专知会员服务
34+阅读 · 2022年1月12日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
迁移自适应学习最新综述,附21页论文下载
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月17日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【AAAI 2022】基于数据分布生成的可预测概念漂移适应
专知会员服务
34+阅读 · 2022年1月12日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员