Persistent homology is an important methodology in topological data analysis which adapts theory from algebraic topology to data settings. Computing persistent homology produces persistence diagrams, which have been successfully used in diverse domains. Despite its widespread use, persistent homology is simply impossible to compute when a dataset is very large. We study a statistical approach to the problem of computing persistent homology for massive datasets using a multiple subsampling framework and extend it to three summaries of persistent homology: Hölder continuous vectorizations of persistence diagrams; the alternative representation as persistence measures; and standard persistence diagrams. Specifically, we derive finite sample convergence rates for empirical means for persistent homology and practical guidance on interpreting and tuning parameters. We validate our approach through extensive experiments on both synthetic and real-world data. We demonstrate the performance of multiple subsampling in a permutation test to analyze the topological structure of Poincaré embeddings of large lexical databases.


翻译:持久同调是拓扑数据分析中的核心方法,它将代数拓扑理论适配到数据场景中。计算持久同调会生成持久图,该工具已在众多领域成功应用。尽管使用广泛,当数据集规模极大时,持久同调的计算往往无法实现。本研究采用多重子采样框架,探讨针对海量数据集持久同调计算的统计方法,并将其扩展至持久同调的三种摘要表示:持久图的Hölder连续向量化表示、作为替代表示的持久测度,以及标准持久图。具体而言,我们推导了持久同调经验均值的有限样本收敛速率,并就参数解释与调优提供了实践指导。通过合成数据与真实数据的广泛实验验证了所提方法的有效性。我们在大型词汇数据库的庞加莱嵌入拓扑结构分析的置换检验中,展示了多重子采样方法的性能表现。

0
下载
关闭预览

相关内容

大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关VIP内容
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员