Many real-world matrix datasets arrive as high-throughput vector streams, making it impractical to store or process them in their entirety. To enable real-time analytics under limited computational, memory, and communication resources, matrix sketching techniques have been developed over recent decades to provide compact approximations of such streaming data. Some algorithms have achieved optimal space and communication complexity. However, these approaches often require frequent time-consuming matrix factorization operations. In particular, under tight approximation error bounds, each matrix factorization computation incurs cubic time complexity, thereby limiting their update efficiency. In this paper, we introduce AeroSketch, a novel matrix sketching framework that leverages recent advances in randomized numerical linear algebra (RandNLA). AeroSketch achieves optimal communication and space costs while delivering near-optimal update time complexity (within logarithmic factors) across persistent, sliding window, and distributed streaming scenarios. Extensive experiments on both synthetic and real-world datasets demonstrate that AeroSketch consistently outperforms state-of-the-art methods in update throughput. In particular, under tight approximation error constraints, AeroSketch reduces the cubic time complexity to the quadratic level. Meanwhile, it maintains comparable approximation quality while retaining optimal communication and space costs.


翻译:许多现实世界中的矩阵数据集以高吞吐向量流的形式到达,使得完整存储或处理它们变得不切实际。为了在有限的计算、内存和通信资源下实现实时分析,近几十年来发展出了矩阵素描技术,为此类流式数据提供紧凑的近似表示。一些算法已实现了最优的空间和通信复杂度。然而,这些方法通常需要频繁执行耗时的矩阵分解操作。特别是在严格的近似误差界约束下,每次矩阵分解计算都会产生立方级的时间复杂度,从而限制了其更新效率。本文提出了AeroSketch,一个新颖的矩阵素描框架,它利用了随机数值线性代数领域的最新进展。AeroSketch在实现最优通信和空间成本的同时,在持久流、滑动窗口流和分布式流场景下均能提供近最优(在对数因子内)的更新时间复杂度。在合成数据集和真实数据集上进行的大量实验表明,AeroSketch在更新吞吐量方面始终优于最先进的方法。特别是在严格的近似误差约束下,AeroSketch将立方级的时间复杂度降低至二次方级别。同时,它在保持最优通信和空间成本的前提下,维持了可比的近似质量。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
28+阅读 · 2022年12月2日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员