Non-negative matrix factorisation (NMF) is a widely used tool for unsupervised learning and feature extraction, with applications ranging from genomics to text analysis and signal processing. Standard formulations of NMF are typically derived under Gaussian or Poisson noise assumptions, which may be inadequate for data exhibiting overdispersion or other complex mean-variance relationships. In this paper, we develop a unified framework for both traditional and convex NMF under a broad class of distributional assumptions, including Negative Binomial and Tweedie models, where the connection between the Tweedie and the $β$-divergence is also highlighted. Using a Majorize-Minimisation approach, we derive multiplicative update rules for all considered models, and novel updates for convex NMF with Poisson and Negative Binomial cost functions. We provide a unified implementation of all considered models, including the first implementations of several convex NMF models. Empirical evaluations on mutational and word count data demonstrate that the choice of noise model critically affects model fit and feature recovery, and that convex NMF can provide an efficient and robust alternative to traditional NMF in scenarios where the number of classes is large. The code for our proposed updates is available in the R package nmfgenr and can be found at https://github.com/MartaPelizzola/nmfgenr.


翻译:非负矩阵分解(NMF)是无监督学习和特征提取的常用工具,其应用范围涵盖基因组学、文本分析和信号处理等领域。传统的NMF模型通常基于高斯或泊松噪声假设推导,这些假设可能不适用于呈现过离散或其他复杂均值-方差关系的数据。本文针对包括负二项分布和Tweedie模型在内的广泛分布假设,构建了传统NMF与凸NMF的统一框架,并特别强调了Tweedie模型与$β$-散度之间的关联。通过采用Majorize-Minimisation优化方法,我们推导了所有考虑模型的乘法更新规则,并针对泊松与负二项损失函数的凸NMF提出了创新性更新算法。我们提供了所有模型的统一实现方案,其中包含多个凸NMF模型的首次实现。在突变数据和词频数据上的实证评估表明:噪声模型的选择显著影响模型拟合效果与特征恢复能力;在类别数量较多的场景中,凸NMF能够为传统NMF提供高效且稳健的替代方案。所提更新算法的代码已集成于R软件包nmfgenr中,可通过https://github.com/MartaPelizzola/nmfgenr获取。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
层次和神经非负张量分解,90页ppt
专知会员服务
24+阅读 · 2022年12月25日
【IEEE ICASSP 2022教程】非负矩阵分解的最新进展,266页ppt
专知会员服务
79+阅读 · 2022年5月28日
专知会员服务
25+阅读 · 2021年7月31日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
【干货】理解深度学习中的矩阵运算
专知
12+阅读 · 2018年2月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关资讯
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
【干货】理解深度学习中的矩阵运算
专知
12+阅读 · 2018年2月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员