Neighbor Embedding for High-Dimensional Sparse Poisson Data - 专知论文

会员服务 ·

0

嵌入 · 稀疏 · 邻域 · 表示 · 结构 ·

Neighbor Embedding for High-Dimensional Sparse Poisson Data

翻译：面向高维稀疏泊松数据的邻域嵌入

Noga Mudrik,Adam S. Charles

Across many scientific fields, measurements often represent the number of times an event occurs. For example, a document can be represented by word occurrence counts, neural activity by spike counts per time window, or online communication by daily email counts. These measurements yield high-dimensional count data that often approximate a Poisson distribution, frequently with low rates that produce substantial sparsity and complicate downstream analysis. A useful approach is to embed the data into a low-dimensional space that preserves meaningful structure, commonly termed dimensionality reduction. Yet existing dimensionality reduction methods, including both linear (e.g., PCA) and nonlinear approaches (e.g., t-SNE), often assume continuous Euclidean geometry, thereby misaligning with the discrete, sparse nature of low-rate count data. Here, we propose p-SNE (Poisson Stochastic Neighbor Embedding), a nonlinear neighbor embedding method designed around the Poisson structure of count data, using KL divergence between Poisson distributions to measure pairwise dissimilarity and Hellinger distance to optimize the embedding. We test p-SNE on synthetic Poisson data and demonstrate its ability to recover meaningful structure in real-world count datasets, including weekday patterns in email communication, research area clusters in OpenReview papers, and temporal drift and stimulus gradients in neural spike recordings.

翻译：在许多科学领域中，测量结果通常表示事件发生的次数。例如，文档可通过词频表示，神经活动可通过每个时间窗口的脉冲计数表示，在线通信则可通过每日邮件数量表示。这些测量产生的高维计数数据通常近似泊松分布，且往往因低发生率而产生大量稀疏性，给后续分析带来困难。一种有效的方法是将数据嵌入到保留有意义结构的低维空间中，即通常所说的降维。然而现有的降维方法，包括线性方法（如PCA）和非线性方法（如t-SNE），通常假设连续的欧几里得几何结构，从而与低发生率计数数据的离散稀疏特性不一致。为此，我们提出p-SNE（泊松随机邻域嵌入），这是一种围绕计数数据泊松结构设计的非线性邻域嵌入方法，利用泊松分布之间的KL散度度量成对不相似性，并采用Hellinger距离优化嵌入。我们在合成泊松数据上测试了p-SNE，并展示了其在真实世界计数数据集中恢复有意义结构的能力，包括电子邮件通信中的工作日模式、OpenReview论文中的研究领域聚类，以及神经脉冲记录中的时间漂移和刺激梯度。

0

相关内容

【博士论文】迈向神经网络中的高维泛化

【博士论文】迈向神经网络中的高维泛化

专知会员服务

12+阅读 · 3月1日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

专知会员服务

102+阅读 · 2020年6月16日

【剑桥大学】图网络的主邻域聚合，Principal Neighbourhood Aggregation for Graph Nets

【剑桥大学】图网络的主邻域聚合，Principal Neighbourhood Aggregation for Graph Nets

专知会员服务

42+阅读 · 2020年4月22日

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

专知会员服务

52+阅读 · 2020年4月1日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知会员服务

41+阅读 · 2020年4月1日

【LITIS Lab】衔接图卷积神经网络谱域和空间域，Spectral and Spatial Domains in GNN

【LITIS Lab】衔接图卷积神经网络谱域和空间域，Spectral and Spatial Domains in GNN

专知会员服务

25+阅读 · 2020年3月30日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

专知会员服务

82+阅读 · 2019年12月16日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

Graph Neural Networks 综述

Graph Neural Networks 综述

计算机视觉life

30+阅读 · 2019年8月13日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Data compression for fast dimension reduction and clustering of high-dimensional discrete data

Arxiv

0+阅读 · 6月9日

A Shallow Embedding of Datalog in Lean

Arxiv

0+阅读 · 5月4日

Shared-kernel Wavelet Neural Networks for Poisson Image Reconstruction

Arxiv

0+阅读 · 4月27日

Heterogeneous Connectivity in Sparse Networks: Fan-in Profiles, Gradient Hierarchy, and Topological Equilibria

Arxiv

0+阅读 · 4月12日

Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

Arxiv

0+阅读 · 4月9日

Generalized Poisson Dynamic Network Models

Arxiv

0+阅读 · 4月7日

Plotting correlated data

Arxiv

0+阅读 · 4月2日

Geometrically Equivariant Graph Neural Networks: A Survey

Arxiv

22+阅读 · 2022年2月16日

Data Augmentation for Graph Neural Networks

Arxiv

38+阅读 · 2020年12月2日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

15+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

【博士论文】迈向神经网络中的高维泛化

【博士论文】迈向神经网络中的高维泛化

专知会员服务

12+阅读 · 3月1日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

【综述论文】A Survey on Dynamic Network Embedding，动态网络嵌入综述论文

专知会员服务

102+阅读 · 2020年6月16日

【剑桥大学】图网络的主邻域聚合，Principal Neighbourhood Aggregation for Graph Nets

【剑桥大学】图网络的主邻域聚合，Principal Neighbourhood Aggregation for Graph Nets

专知会员服务

42+阅读 · 2020年4月22日

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

面向结构化数据的向量嵌入理论 | word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

专知会员服务

52+阅读 · 2020年4月1日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知会员服务

41+阅读 · 2020年4月1日

【LITIS Lab】衔接图卷积神经网络谱域和空间域，Spectral and Spatial Domains in GNN

【LITIS Lab】衔接图卷积神经网络谱域和空间域，Spectral and Spatial Domains in GNN

专知会员服务

25+阅读 · 2020年3月30日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

【图机器学习论文】网络嵌入研究综述（A Survey on Network Embedding）

专知会员服务

82+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

Graph Neural Networks 综述

Graph Neural Networks 综述

计算机视觉life

30+阅读 · 2019年8月13日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Data compression for fast dimension reduction and clustering of high-dimensional discrete data

Arxiv

0+阅读 · 6月9日

A Shallow Embedding of Datalog in Lean

Arxiv

0+阅读 · 5月4日

Shared-kernel Wavelet Neural Networks for Poisson Image Reconstruction

Arxiv

0+阅读 · 4月27日

Heterogeneous Connectivity in Sparse Networks: Fan-in Profiles, Gradient Hierarchy, and Topological Equilibria

Arxiv

0+阅读 · 4月12日

Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

Arxiv

0+阅读 · 4月9日

Generalized Poisson Dynamic Network Models

Arxiv

0+阅读 · 4月7日

Plotting correlated data

Arxiv

0+阅读 · 4月2日

Geometrically Equivariant Graph Neural Networks: A Survey

Arxiv

22+阅读 · 2022年2月16日

Data Augmentation for Graph Neural Networks

Arxiv

38+阅读 · 2020年12月2日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员