The Intrinsic Dimension (ID) is a key concept in unsupervised learning and feature selection, as it is a lower bound to the number of variables which are necessary to describe a system. However, in almost any real-world dataset the ID depends on the scale at which the data are analysed. Quite typically at a small scale, the ID is very large, as the data are affected by measurement errors. At large scale, the ID can also appear erroneously large, due to the curvature and the topology of the manifold containing the data. In this work, we introduce an automatic protocol to select the sweet spot, namely the correct range of scales in which the ID is meaningful and useful. This protocol is based on imposing that for distances smaller than the correct scale the density of the data is constant. In the presented framework, to estimate the density it is necessary to know the ID, therefore, this condition is imposed self-consistently. We illustrate the usefulness and robustness of this procedure to noise by benchmarks on artificial and real-world datasets.


翻译:本征维数是无监督学习和特征选择中的关键概念,它是描述一个系统所需变量的下界。然而,在几乎所有的真实数据集中,本征维数都依赖于数据分析的尺度。通常在小尺度下,本征维数非常大,因为数据受到测量误差的影响;在大尺度下,由于包含数据的流形的曲率和拓扑结构,本征维数也可能看似偏大。本文提出了一种自动选择"最佳尺度"——即本征维数具有意义和效用的正确尺度范围——的协议。该协议基于以下假设:在小于正确尺度的距离内,数据密度为常数。在所提出的框架中,估计密度需要先知道本征维数,因此该条件以自洽方式施加。通过人工和真实数据集的基准测试,我们证明了该过程对噪声的实用性和稳健性。

0
下载
关闭预览

相关内容

数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
无人自主系统能力边界参数自适应判别方法
专知会员服务
20+阅读 · 2024年10月26日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
专知会员服务
11+阅读 · 2021年10月3日
专知会员服务
38+阅读 · 2021年9月15日
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
无人自主系统能力边界参数自适应判别方法
专知会员服务
20+阅读 · 2024年10月26日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
专知会员服务
11+阅读 · 2021年10月3日
专知会员服务
38+阅读 · 2021年9月15日
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员