Kleinberg and Mullainathan recently proposed a formal framework for studying the phenomenon of language generation, called language generation in the limit. In this model, an adversary gives an enumeration of example strings from an unknown target language, and the algorithm is tasked with correctly generating unseen strings from the target language within finite time. Refined notions of non-uniform and uniform generation were later introduced by Li, Raman, and Tewari (2025), and a noisy model was introduced by Raman and Raman (2025), which allows the adversary to insert extraneous strings. A natural question in the noisy model is to quantify the effect of noise, by studying the impact of each additional extraneous string. We show two complementary results in this setting. We first show that for both uniform and non-uniform generation, a single noisy string strictly reduces the set of collections that can be generated, thus answering an open question in Raman and Raman (2025). Then, we show for both uniform and non-uniform generation that generation with a single noisy string is equivalent to generation with any finite amount of noise, sharply contrasting with the strict hierarchy for noisy generation in the limit shown by Bai, Panigrahi, and Zhang (2026). Finally, we leverage our previous results to provide the first known characterization for non-uniform noise-dependent generatability.


翻译:Kleinberg与Mullainathan近期提出了一个研究语言生成现象的形式化框架,称为极限语言生成。在该模型中,对手会枚举来自未知目标语言的示例字符串,而算法的任务是在有限时间内正确生成目标语言中未出现过的字符串。Li、Raman与Tewari(2025)随后提出了非均匀生成与均匀生成的细化概念,Raman与Raman(2025)则引入了噪声模型,允许对手插入无关字符串。噪声模型中一个自然的问题是通过研究每个额外无关字符串的影响来量化噪声效应。我们在此设定下展示了两项互补的结果。首先证明对于均匀与非均匀生成,单个噪声字符串都会严格缩减可生成的集合,从而回答了Raman与Raman(2025)中提出的开放性问题。随后证明对于均匀与非均匀生成,带单个噪声字符串的生成等价于任意有限噪声量的生成,这与Bai、Panigrahi及Zhang(2026)所揭示的极限噪声生成的严格层级结构形成鲜明对比。最后,我们利用前述结果为非均匀噪声依赖的可生成性提供了首个已知的特征刻画。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
专知会员服务
65+阅读 · 2021年5月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员