Raw datasets are often too large and unstructured to work with directly, and require a data preparation phase. The domain of industrial Cyber-Physical Systems (CPSs) is no exception, as raw data typically consists of large time-series data collections that log the system's status at regular time intervals. The processing of such raw data is often carried out using ad hoc, case-specific, one-off Python scripts, often neglecting aspects of readability, reusability, and maintainability. In practice, this can cause professionals such as data scientists to write similar data preparation scripts for each case, requiring them to do much repetitive work. We introduce CPSLint, a Domain-Specific Language (DSL) designed to support the data preparation process for industrial CPS. CPSLint raises the level of abstraction to the point where both data scientists and domain experts can perform the data preparation task. We leverage the fact that many raw data collections in the industrial CPS domain require similar actions to render them suitable for data-centric workflows. In our DSL one can express the data preparation process in just a few lines of code. CPSLint is a publicly available tool applicable for any case involving time-series data collections in need of sanitisation.


翻译:原始数据集通常因规模过大且结构松散而难以直接使用,需要经过数据准备阶段。工业信息物理系统(CPSs)领域同样面临这一挑战,其原始数据通常包含以固定时间间隔记录系统状态的大型时序数据集合。此类原始数据的处理往往依赖临时编写、针对特定案例的一次性Python脚本,而忽略可读性、可复用性与可维护性。实践中,这常导致数据科学家等专业人员需为每个案例编写相似的数据准备脚本,重复性工作繁重。本文提出CPSLint——一种专为工业CPS数据准备流程设计的领域特定语言(DSL)。CPSLint将抽象层次提升至数据科学家与领域专家均可执行数据准备任务的高度。我们充分利用工业CPS领域大量原始数据集合需执行相似操作方可适配数据驱动工作流的特性,使研究者仅需数行代码即可通过该DSL表述数据准备流程。CPSLint作为公开可用工具,适用于任何需要净化的时序数据集合处理场景。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
干货书《数据融合:理论、方法和应用》289页
专知会员服务
131+阅读 · 2023年4月2日
信息物理融合系统 (CPS)研究综述
专知会员服务
47+阅读 · 2022年3月14日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
【干货书】Python 数据科学学习手册,548页pdf
专知会员服务
87+阅读 · 2021年3月14日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
【CPS】CPS应用案例集
产业智能官
85+阅读 · 2019年8月9日
【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍
产业智能官
19+阅读 · 2019年1月27日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员