Motivated by applications in statistics and machine learning, we consider a problem of unmixing convex combinations of nonparametric densities. Suppose we observe $n$ groups of samples, where the $i$th group consists of $N_i$ independent samples from a $d$-variate density $f_i(x)=\sum_{k=1}^K π_i(k)g_k(x)$. Here, each $g_k(x)$ is a nonparametric density, and each $π_i$ is a $K$-dimensional mixed membership vector. We aim to estimate $g_1(x), \ldots,g_K(x)$. This problem generalizes topic modeling from discrete to continuous variables and finds its applications in LLMs with word embeddings. In this paper, we propose an estimator for the above problem, which modifies the classical kernel density estimator by assigning group-specific weights that are computed by topic modeling on histogram vectors and de-biased by U-statistics. For any $β>0$, assuming that each $g_k(x)$ is in the Nikol'ski class with a smooth parameter $β$, we show that the sum of integrated squared errors of the constructed estimators has a convergence rate that depends on $n$, $K$, $d$, and the per-group sample size $N$. We also provide a matching lower bound, which suggests that our estimator is rate-optimal.


翻译:受统计学和机器学习应用的启发,我们考虑一个从非参数密度的凸组合中解混的问题。假设我们观察到n组样本,其中第i组包含来自d维密度f_i(x)=∑_{k=1}^K π_i(k)g_k(x)的N_i个独立样本。这里,每个g_k(x)是一个非参数密度,每个π_i是一个K维的混合隶属度向量。我们的目标是估计g_1(x),...,g_K(x)。该问题将主题建模从离散变量推广到连续变量,并在基于词嵌入的LLMs中找到其应用。本文针对上述问题提出一种估计器,它通过基于直方图向量的主题建模计算各组特异性权重,并用U统计量进行去偏,从而改进了经典的核密度估计器。对于任意β>0,假设每个g_k(x)属于光滑参数为β的Nikol'skii类,我们证明所构造估计量的积分平方误差之和的收敛速度取决于n、K、d以及每组样本量N。我们还提供了匹配的下界,表明我们的估计量达到了率最优性。

0
下载
关闭预览

相关内容

人工智能指导的现实问题非线性优化,Meta AI Yuandong Tian
专知会员服务
32+阅读 · 2023年3月3日
南大《优化方法 (Optimization Methods》课程,推荐!
专知会员服务
80+阅读 · 2022年4月3日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
112+阅读 · 2020年12月18日
专知会员服务
75+阅读 · 2020年12月7日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
104+阅读 · 2020年6月28日
最新《图嵌入组合优化》综述论文,40页pdf
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员