To what extent is it possible to visualize high-dimensional data in two- or three-dimensional plots? We reframe this question in terms of embedding $n$-vertex graphs (representing the neighborhood structure of the input points) into metric spaces of low doubling dimension $d$ in such a way that keeps neighbors close and non-neighbors far. This notion of neighbor preservation can be understood as a considerably weaker embedding constraint than near-isometry, yet it is similarly as demanding in terms of how the minimum required dimension scales with the number of points. We show that for an overwhelming fraction of graphs, $d = Θ(\log n)$ is both necessary and sufficient for neighbor preservation. Even sparse regular graphs, which represent more restricted neighborhood connectivity structures, typically require $d= Ω(\log n / \log\log n)$. The landscape changes dramatically when embedding into normed spaces: general graphs become exponentially harder to embed, requiring $d=Ω(n)$, while sparse regular graphs continue to admit $d = O(\log n)$. Finally, we study the implications of these results for visualizing data with intrinsic cluster structure. We show that graphs produced from a planted partition model with $k$ clusters on $n$ points typically require $d=Ω(\log n)$, even when the cluster structure is salient. These results challenge the aspiration that constant-dimensional visualizations can faithfully preserve neighborhood structure.


翻译:在多大程度上可以将高维数据可视化于二维或三维图中?我们将此问题重新表述为:将n顶点图(表示输入点的邻域结构)嵌入到低倍增维度d的度量空间中,使得邻近点保持接近而非邻近点保持远离。这种邻域保持概念可理解为比近似等距更弱的嵌入约束,但在所需最小维度随点数变化的尺度关系上具有相似要求。我们证明对于绝大多数图,d = Θ(log n) 是邻域保持既必要又充分的条件。即使是表示更受限邻域连通结构的稀疏正则图,通常也需要d = Ω(log n / log log n)。当嵌入赋范空间时,情况发生显著变化:一般图变得指数级难以嵌入,需要d = Ω(n),而稀疏正则图仍允许d = O(log n)。最后,我们研究这些结果对具有内在聚类结构数据可视化的启示。我们证明基于n个点上k个簇的植入分区模型生成的图通常需要d = Ω(log n),即使聚类结构非常显著。这些结果对恒定维度可视化能够忠实保持邻域结构的期望提出了挑战。

0
下载
关闭预览

相关内容

【博士论文】结构化数据自动可视化关键技术研究
专知会员服务
47+阅读 · 2023年12月6日
时间序列复杂网络分析中的可视图方法研究综述
专知会员服务
50+阅读 · 2023年12月2日
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
35+阅读 · 2020年7月24日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
下载 | 954页《数据可视化》手册
机器学习算法与Python学习
22+阅读 · 2019年1月3日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关资讯
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
下载 | 954页《数据可视化》手册
机器学习算法与Python学习
22+阅读 · 2019年1月3日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员