Many areas in science and engineering now have access to technologies that enable the rapid collection of overwhelming data volumes. While these datasets are vital for understanding phenomena from physical to biological and social systems, the sheer magnitude of the data makes even simple storage, transmission, and basic processing highly challenging. To enable efficient and accurate execution of these data processing tasks, we require new dimensionality reduction tools that 1) do not need expensive, time-consuming training, and 2) preserve the underlying geometry of the data that has the information required to understand the measured system. Specifically, the geometry to be preserved is that induced by the fact that in many applications, streaming high-dimensional data evolves on a low-dimensional attractor manifold. Importantly, we may not know the exact structure of this manifold a priori. To solve these challenges, we present randomized filtering (RF), which leverages a specific instantiation of randomized dimensionality reduction to provably preserve non-linear manifold structure in the embedded space while remaining data-independent and computationally efficient. In this work we build on the rich theoretical promise of randomized dimensionality reduction to develop RF as a real, practical approach. We introduce novel methods, analysis, and experimental verification to illuminate the practicality of RF in diverse scientific applications, including several simulated and real-data examples that showcase the tangible benefits of RF.


翻译:当前,科学与工程领域的许多学科已具备快速采集海量数据的技术能力。虽然这些数据集对于理解从物理到生物乃至社会系统的各类现象至关重要,但其庞大规模使得即使是简单的存储、传输与基础处理也极具挑战性。为实现高效且准确的数据处理任务,我们需要新型降维工具,其应满足:1)无需昂贵耗时的训练过程;2)保持数据底层几何结构,该结构蕴含着理解被测系统所需的信息。具体而言,需要保持的几何特性源于这样一个事实:在许多应用场景中,高维数据流演化于低维吸引子流形之上。值得注意的是,我们可能无法预先获知该流形的确切结构。为应对这些挑战,本文提出随机滤波方法,该方法通过特定形式的随机降维技术,在理论上保证嵌入空间中的非线性流形结构得以保持,同时保持数据无关性与计算高效性。本研究基于随机降维的丰富理论前景,将随机滤波发展为切实可行的实用方法。我们通过引入创新方法、理论分析与实验验证,阐明随机滤波在多样化科学应用中的实用性,包括多个模拟与真实数据案例,充分展示了该方法带来的实际效益。

0
下载
关闭预览

相关内容

【新书】流形学习:工程中的模型降维
专知会员服务
52+阅读 · 2024年11月9日
【新书】高维概率:数据科学中的应用导论,305页pdf
专知会员服务
60+阅读 · 2024年9月1日
专知会员服务
43+阅读 · 2021年8月30日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关资讯
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员