Massive data streams from IoT and cyber-physical systems must be processed under strict bandwidth, latency, and resource constraints. Generalized Deduplication (GD) is a promising lossless compression framework, as it supports random access and direct analytics on compressed data. However, existing GD algorithms exhibit quadratic complexity $\mathcal{O}(nd^{2})$, which limits their scalability for high-dimensional datasets. This paper proposes \textbf{EntroGD}, an entropy-guided GD framework that decouples analytical fidelity from compression efficiency to achieve linear complexity $\mathcal{O}(nd)$. EntroGD adopts a two-stage design, first constructing compact condensed samples to preserve information critical for analytics, and then applying entropy-based bit selection to maximize compression. Experiments on 18 IoT datasets show that EntroGD reduces configuration time by up to $53.5\times$ compared to state-of-the-art GD compressors. Moreover, by enabling analytics with access to only $2.6\%$ of the original data volume, EntroGD accelerates clustering by up to $31.6\times$ with negligible loss in accuracy. Overall, EntroGD provides a scalable and system-efficient solution for direct analytics on compressed IoT data.


翻译:物联网与信息物理系统产生的海量数据流必须在严格的带宽、延迟与资源约束下进行处理。广义去重是一种前景广阔的无损压缩框架,因其支持对压缩数据的随机访问与直接分析。然而,现有广义去重算法具有二次复杂度 $\mathcal{O}(nd^{2})$,限制了其在高维数据集上的可扩展性。本文提出 \textbf{EntroGD},一种熵引导的广义去重框架,通过将分析保真度与压缩效率解耦,实现线性复杂度 $\mathcal{O}(nd)$。EntroGD采用两阶段设计:首先构建紧凑的浓缩样本以保留对分析至关重要的信息,随后应用基于熵的比特选择以最大化压缩率。在18个物联网数据集上的实验表明,相较于最先进的广义去重压缩器,EntroGD将配置时间降低了高达 $53.5\times$。此外,通过仅需访问原始数据量 $2.6\%$ 即可进行分析,EntroGD将聚类速度提升高达 $31.6\times$,且精度损失可忽略不计。总体而言,EntroGD为压缩物联网数据的直接分析提供了一种可扩展且系统高效的解决方案。

0
下载
关闭预览

相关内容

物联网时代分布式深度学习新方向
专知会员服务
55+阅读 · 2020年8月30日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
38+阅读 · 2020年4月26日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月22日
VIP会员
相关VIP内容
物联网时代分布式深度学习新方向
专知会员服务
55+阅读 · 2020年8月30日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
38+阅读 · 2020年4月26日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员