In this article, we develop efficient sampling algorithms for random surjections from $[n]$ to $[k]$ for all $n \geq k$. We make no assumption about $n$ and $k$. In particular, we do not make the common assumption that the ratio $\frac{n}{k}$ is constant. All our guarantees are uniform in $n$ and $k$. Our first insight is that all the complexity in sampling random surjections is captured by sampling a smaller structure which we call the \emph{profile} of the surjection. More precisely, the profile associates to each occurring preimage size $s$ the number of preimages of size $s$. Using standard techniques, we show that the problem of sampling surjections reduces to sampling the profile with the induced distribution. This is partly explained by the fact that profiles are always sublinear, with at most $\sqrt{2n}$ entries in the worst case. We provide a complete set of algorithms to directly sample the \emph{profile} of a random surjection with the induced distribution, covering the full parameter space. These algorithms are shown to be optimal up to logarithmic factors in the expected size of the output. Our algorithms are based on exact-size Boltzmann samplers, which are standard rejection-based samplers. We partition the parameter space into three main regions. In each region, we optimize both the rejection rate and the cost of each sampling round. Profiles capture a number of relevant statistics of random surjections and might be of independent interest. In a related context, profiles have been recently studied by Devroye et al. for random mappings. As a spin-off result, we answer an open question from Devroye and Los '25 by providing an optimal algorithm also for the profiles of a random mapping when $k > n/\log n$. The results of this article are not only of theoretical interest but lead to samplers implementable in practice.


翻译:本文针对所有 $n \geq k$ 的情形,开发了从 $[n]$ 到 $[k]$ 的随机满射函数的高效采样算法。我们不对 $n$ 和 $k$ 施加任何假设,尤其不采用常见的 $\frac{n}{k}$ 为常数的假设。所有保证均关于 $n$ 和 $k$ 一致成立。首要洞察在于:随机满射函数采样的全部复杂度均可归结为对更小结构(即满射函数的"分布")的采样。具体而言,该"分布"将每个出现原像规模 $s$ 与规模为 $s$ 的原像数量相关联。利用标准技术,我们证明满射函数采样问题可简化为按诱导分布采样其"分布"。这在一定程度上源于"分布"总是次线性的:最坏情况下最多包含 $\sqrt{2n}$ 个条目。我们提供了一套完整算法,可直接按诱导分布采样随机满射函数的"分布",覆盖全部参数空间。这些算法在输出期望规模的对数因子意义下被证明是最优的。算法基于精确规模的玻尔兹曼采样器(一种标准的拒绝型采样器),并将参数空间划分为三个主要区域。在每个区域中,我们同时优化了拒绝率与每轮采样成本。"分布"捕捉了随机满射函数的若干相关统计量,可能具有独立研究价值。在相关背景下,Devroye等人近期针对随机映射研究了此类"分布"。作为衍生结果,我们回答了Devroye与Los '25提出的开放问题:当 $k > n/\log n$ 时,为随机映射的"分布"提供了最优算法。本文成果不仅具有理论意义,还可生成可实际部署的采样器。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【博士论文】吉布斯分布的局部、动态与快速采样算法
专知会员服务
29+阅读 · 2021年11月26日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【博士论文】吉布斯分布的局部、动态与快速采样算法
专知会员服务
29+阅读 · 2021年11月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员