Across many scientific fields, measurements often represent the number of times an event occurs. For example, a document can be represented by word occurrence counts, neural activity by spike counts per time window, or online communication by daily email counts. These measurements yield high-dimensional count data that often approximate a Poisson distribution, frequently with low rates that produce substantial sparsity and complicate downstream analysis. A useful approach is to embed the data into a low-dimensional space that preserves meaningful structure, commonly termed dimensionality reduction. Yet existing dimensionality reduction methods, including both linear (e.g., PCA) and nonlinear approaches (e.g., t-SNE), often assume continuous Euclidean geometry, thereby misaligning with the discrete, sparse nature of low-rate count data. Here, we propose p-SNE (Poisson Stochastic Neighbor Embedding), a nonlinear neighbor embedding method designed around the Poisson structure of count data, using KL divergence between Poisson distributions to measure pairwise dissimilarity and Hellinger distance to optimize the embedding. We test p-SNE on synthetic Poisson data and demonstrate its ability to recover meaningful structure in real-world count datasets, including weekday patterns in email communication, research area clusters in OpenReview papers, and temporal drift and stimulus gradients in neural spike recordings.


翻译:在许多科学领域中,测量结果通常表示事件发生的次数。例如,文档可通过词频表示,神经活动可通过每个时间窗口的脉冲计数表示,在线通信则可通过每日邮件数量表示。这些测量产生的高维计数数据通常近似泊松分布,且往往因低发生率而产生大量稀疏性,给后续分析带来困难。一种有效的方法是将数据嵌入到保留有意义结构的低维空间中,即通常所说的降维。然而现有的降维方法,包括线性方法(如PCA)和非线性方法(如t-SNE),通常假设连续的欧几里得几何结构,从而与低发生率计数数据的离散稀疏特性不一致。为此,我们提出p-SNE(泊松随机邻域嵌入),这是一种围绕计数数据泊松结构设计的非线性邻域嵌入方法,利用泊松分布之间的KL散度度量成对不相似性,并采用Hellinger距离优化嵌入。我们在合成泊松数据上测试了p-SNE,并展示了其在真实世界计数数据集中恢复有意义结构的能力,包括电子邮件通信中的工作日模式、OpenReview论文中的研究领域聚类,以及神经脉冲记录中的时间漂移和刺激梯度。

0
下载
关闭预览

相关内容

【博士论文】迈向神经网络中的高维泛化
专知会员服务
12+阅读 · 3月1日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月4日
Arxiv
0+阅读 · 3月11日
Arxiv
38+阅读 · 2020年12月2日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员