Raw datasets are often too large and unstructured to work with directly, and require a data preparation phase. The domain of industrial Cyber-Physical Systems (CPSs) is no exception, as raw data typically consists of large time-series data collections that log the system's status at regular time intervals. The processing of such raw data is often carried out using ad hoc, case-specific, one-off Python scripts, often neglecting aspects of readability, reusability, and maintainability. In practice, this can cause professionals such as data scientists to write similar data preparation scripts for each case, requiring them to do much repetitive work. We introduce CPSLint, a Domain-Specific Language (DSL) designed to support the data preparation process for industrial CPS. CPSLint raises the level of abstraction to the point where both data scientists and domain experts can perform the data preparation task. We leverage the fact that many raw data collections in the industrial CPS domain require similar actions to render them suitable for data-centric workflows. In our DSL one can express the data preparation process in just a few lines of code. CPSLint is a publicly available tool applicable for any case involving time-series data collections in need of sanitisation.


翻译:原始数据集往往过于庞大且缺乏结构,无法直接使用,因此需要数据预处理阶段。工业信息物理系统(CPS)领域也不例外,原始数据通常包含以固定时间间隔记录系统状态的大规模时序数据集合。这类原始数据的处理通常采用临时性、特定场景的一次性Python脚本,往往忽略了可读性、可重用性和可维护性。实践中,这会导致数据科学家等专业人员需要为每个案例编写相似的数据预处理脚本,不得不执行大量重复性工作。我们提出CPSLint——一种专为支持工业CPS数据预处理而设计的领域特定语言(DSL)。CPSLint将抽象层次提升至数据科学家和领域专家均能执行数据预处理任务的程度。我们利用工业CPS领域许多原始数据集合需要相似操作才能适用于数据驱动工作流这一特点。通过该DSL,用户仅需数行代码即可表达数据预处理流程。CPSLint是一款面向公众可用的工具,适用于任何需要清洗的时序数据集合场景。

0
下载
关闭预览

相关内容

数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
干货书《数据融合:理论、方法和应用》289页
专知会员服务
131+阅读 · 2023年4月2日
【硬核书】信息物理系统理论、方法和应用,291页pdf
专知会员服务
105+阅读 · 2022年9月23日
信息物理融合系统 (CPS)研究综述
专知会员服务
47+阅读 · 2022年3月14日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
【CPS】CPS应用案例集
产业智能官
85+阅读 · 2019年8月9日
【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍
产业智能官
19+阅读 · 2019年1月27日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月27日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
4+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员