Multivariate time series (MTS) are frequently affected by co-occurring quality issues, such as missing values, outliers, and constraint violations, which significantly undermine downstream analytics. Existing cleaning approaches fix only a limited set of such issues, making them ill-suited for scenarios where multiple quality problems arise simultaneously. Furthermore, these methods commonly depend on the availability of ground truth data or domain-specific rules, both of which are rarely accessible in real-world applications. In this paper, we introduce \sys, an agent system with reinforcement learning designed to clean multiple data quality issues in MTS. We cast the cleaning process as a joint optimization problem that simultaneously handles quality issue order and cleaning model selection, allowing efficient navigation of the large space of possible cleaning pipelines. Our framework relies on a hierarchical agent architecture, where a high-level agent determines the order in which data quality issues should be processed, while a low-level agent identifies the most suitable cleaning method for each issue. To guide the agent toward an optimal cleaning pipeline, we propose a dual-stage reward mechanism that couples upstream (cleaning) and downstream performance, enabling effective optimization without relying on ground truth. Our experimental results show that \sys consistently outperforms existing methods, achieving up to 96\% improvement in data cleaning quality and 27\% improvement in downstream performance.


翻译:多元时间序列常受缺失值、异常值和约束违规等并发质量问题的影响,这些缺陷显著损害下游分析性能。现有清洗方法仅能修复有限类型的问题,难以应对多种质量问题同时出现的场景。此外,这些方法通常依赖真实标注数据或领域特定规则,而在实际应用中两者均难以获取。本文提出\sys——一种基于强化学习的智能体系统,旨在解决多元时间序列中的多重数据质量问题。我们将清洗过程建模为联合优化问题,同步处理质量问题处理顺序与清洗模型选择,从而高效遍历可能的清洗流水线组合空间。框架采用分层智能体架构:高层智能体决定数据质量问题的处理顺序,底层智能体为每个问题选择最适清洗方法。为引导智能体生成最优清洗流水线,我们提出双阶段奖励机制,耦合上游(清洗)与下游性能指标,无需依赖真实标注即可实现有效优化。实验结果表明,\sys一致性地超越现有方法,在数据清洗质量上最高提升96%,下游性能提升27%。

0
下载
关闭预览

相关内容

基于深度学习的时间序列分类研究综述
专知会员服务
83+阅读 · 2024年1月8日
深度学习在时间序列异常检测中的应用综述
专知会员服务
110+阅读 · 2022年11月11日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
104+阅读 · 2022年7月25日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
基于深度学习的时间序列分类研究综述
专知会员服务
83+阅读 · 2024年1月8日
深度学习在时间序列异常检测中的应用综述
专知会员服务
110+阅读 · 2022年11月11日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
104+阅读 · 2022年7月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员