Kleinberg and Mullainathan recently proposed a formal framework for studying the phenomenon of language generation, called language generation in the limit. In this model, an adversary gives an enumeration of example strings from an unknown target language, and the algorithm is tasked with correctly generating unseen strings from the target language within finite time. Refined notions of non-uniform and uniform generation were later introduced by Li, Raman, and Tewari (2025), and a noisy model was introduced by Raman and Raman (2025), which allows the adversary to insert extraneous strings. A natural question in the noisy model is to quantify the effect of noise, by studying the impact of each additional extraneous string. We show two complementary results in this setting. We first show that for both uniform and non-uniform generation, a single noisy string strictly reduces the set of collections that can be generated, thus answering an open question in Raman and Raman (2025). Then, we show for both uniform and non-uniform generation that generation with a single noisy string is equivalent to generation with any finite amount of noise, sharply contrasting with the strict hierarchy for noisy generation in the limit shown by Bai, Panigrahi, and Zhang (2026). Finally, we leverage our previous results to provide the first known characterization for non-uniform noise-dependent generatability.


翻译:Kleinberg与Mullainathan近期提出了一个研究语言生成现象的形式化框架——极限语言生成。在该模型中,对手从未知目标语言中给出示例字符串的枚举,算法需在有限时间内正确生成目标语言中未见过的字符串。Li、Raman与Tewari(2025)随后引入了非一致生成与一致生成的精细概念,Raman与Raman(2025)则提出了含噪模型,允许对手插入无关字符串。含噪模型中的一个自然问题是通过研究每个额外无关字符串的影响来量化噪声效应。我们在此框架下展示两个互补性结果。首先证明,对于一致生成与非一致生成,单个含噪字符串严格减少了可生成的集合族,由此回答了Raman与Raman(2025)中的开放问题。其次表明,在一致生成与非一致生成中,单个含噪字符串的生成等价于任意有限噪声量的生成,这与Bai、Panigrahi与Zhang(2026)所展示的极限含噪生成中的严格层级结构形成鲜明对比。最后,我们利用前述结果为非一致噪声依赖性可生成性提供了首个已知的表征。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
专知会员服务
65+阅读 · 2021年5月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月11日
Arxiv
0+阅读 · 5月5日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员