We study a relaxation of the problem of coupling probability distributions -- a list of samples is generated from one distribution and an accept is declared if any one of these samples is identical to the sample generated from the other distribution. We propose a novel method for generating samples, which extends the Gumbel-max sampling suggested in Daliri et al. (arXiv:2408.07978) for coupling probability distributions. We also establish a corresponding lower bound on the acceptance probability, which we call the list matching lemma. We next discuss two applications of our setup. First, we develop a new mechanism for multi-draft speculative sampling that is simple to implement and achieves performance competitive with baselines such as SpecTr and SpecInfer across a range of language tasks. Our method also guarantees a certain degree of drafter invariance with respect to the output tokens which is not supported by existing schemes. We also provide a theoretical lower bound on the token level acceptance probability. As our second application, we consider distributed lossy compression with side information in a setting where a source sample is compressed and available to multiple decoders, each with independent side information. We propose a compression technique that is based on our generalization of Gumbel-max sampling and show that it provides significant gains in experiments involving synthetic Gaussian sources and the MNIST image dataset.


翻译:我们研究概率分布耦合问题的一种松弛形式——从一个分布生成样本列表,当该列表中任意样本与另一分布生成的样本相同时,即宣告接受。我们提出了一种新颖的样本生成方法,该方法扩展了Daliri等人(arXiv:2408.07978)为耦合概率分布提出的Gumbel-max采样技术。我们还建立了接受概率的相应下界,称之为列表匹配引理。接下来我们讨论该框架的两个应用。首先,我们开发了一种新的多草稿推测采样机制,该方法实现简单,在多种语言任务中达到与SpecTr、SpecInfer等基线方法相当的竞争性能。我们的方法还能保证输出词元在特定程度上的草稿器不变性,这是现有方案所不具备的。我们还从理论上给出了词元级接受概率的下界。作为第二个应用,我们研究了带边信息的分布式有损压缩问题:源样本经压缩后可供多个解码器使用,每个解码器拥有独立的边信息。我们提出了一种基于广义Gumbel-max采样的压缩技术,并在合成高斯源和MNIST图像数据集的实验中验证了其显著性能增益。

0
下载
关闭预览

相关内容

基于解耦的小样本目标检测方法研究
专知会员服务
19+阅读 · 2024年9月19日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
神经模型中组合求解器和离散分布的集成,77页ppt
专知会员服务
23+阅读 · 2022年12月30日
专知会员服务
54+阅读 · 2021年7月30日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
21+阅读 · 2021年1月27日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基于解耦的小样本目标检测方法研究
专知会员服务
19+阅读 · 2024年9月19日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
神经模型中组合求解器和离散分布的集成,77页ppt
专知会员服务
23+阅读 · 2022年12月30日
专知会员服务
54+阅读 · 2021年7月30日
【AAAI2021】信息瓶颈和有监督表征解耦
专知会员服务
21+阅读 · 2021年1月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员