Species sampling processes have long served as the fundamental framework for modeling random discrete distributions and exchangeable sequences. However, data arising from distinct but related sources require a broader notion of probabilistic invariance, making partial exchangeability a natural choice. Countless models for partially exchangeable data, collectively known as dependent nonparametric priors, have been proposed. These include hierarchical, nested and additive processes, widely used in statistics and machine learning. Still, a unifying framework is lacking and key questions about their underlying learning mechanisms remain unanswered. We fill this gap by introducing multivariate species sampling models, a new general class of nonparametric priors that encompasses most existing finite- and infinite-dimensional dependent processes. They are characterized by the induced partially exchangeable partition probability function encoding their multivariate clustering structure. We establish their core distributional properties and analyze their dependence structure, demonstrating that borrowing of information across groups is entirely determined by shared ties. This provides new insights into the underlying learning mechanisms, offering, for instance, a principled rationale for the previously unexplained correlation structure observed in existing models. Beyond providing a cohesive theoretical foundation, our approach serves as a constructive tool for developing new models and opens novel research directions for capturing richer dependence structures beyond the framework of multivariate species sampling processes.


翻译:物种抽样过程长期以来一直是建模随机离散分布与可交换序列的基础框架。然而,源于不同但相关来源的数据需要更广泛的概率不变性概念,使得部分可交换性成为自然选择。大量针对部分可交换数据的模型——统称为依赖非参数先验——已被提出,包括在统计学与机器学习中广泛使用的分层、嵌套与可加过程。尽管如此,目前仍缺乏一个统一框架,且关于其底层学习机制的关键问题尚未得到解答。我们通过引入多元物种抽样模型填补了这一空白,这是一个新的通用非参数先验类别,涵盖了大多数现有的有限维与无限维依赖过程。其特征由编码其多元聚类结构的诱导部分可交换划分概率函数所刻画。我们建立了其核心分布性质,并分析了其依赖结构,证明了跨组信息借用完全由共享关联决定。这为底层学习机制提供了新的见解,例如,为现有模型中观察到的先前无法解释的相关结构提供了原理性依据。除了提供统一的理论基础外,我们的方法还可作为开发新模型的构建工具,并为捕捉超越多元物种抽样过程框架的更丰富依赖结构开辟了新的研究方向。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
专知会员服务
52+阅读 · 2020年12月10日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
大讲堂 | 神经关系抽取模型
AI研习社
24+阅读 · 2018年9月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
专知会员服务
52+阅读 · 2020年12月10日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员