We consider the classical problem of discrete distribution estimation using i.i.d. samples in a novel scenario where additional side information is available on the distribution. In large alphabet datasets such as text corpora, such side information arises naturally through word semantics/similarities that can be inferred by closeness of vector word embeddings, for instance. We consider two specific models for side information--a local model where the unknown distribution is in the neighborhood of a known distribution, and a partial ordering model where the alphabet is partitioned into known higher and lower probability sets. In both models, we theoretically characterize the improvement in a suitable squared-error risk because of the available side information. Simulations over natural language and synthetic data illustrate these gains.


翻译:本文研究离散分布估计这一经典问题,但考虑了一种新颖场景:在利用独立同分布样本进行估计时,可获得关于目标分布的辅助信息。在大字母表数据集(如文本语料库)中,此类辅助信息天然存在——例如可通过词向量嵌入的邻近性推断词语语义/相似性。我们构建了两种具体的辅助信息模型:局部模型(假设未知分布位于已知分布的邻域内)与偏序模型(将字母表划分为已知的高概率子集与低概率子集)。针对这两种模型,我们从理论上刻画了辅助信息在适当平方误差风险度量下带来的改进程度。基于自然语言与合成数据的仿真实验验证了这些性能增益。

0
下载
关闭预览

相关内容

《分布外泛化评估》综述
专知会员服务
43+阅读 · 2024年3月6日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员