Kleinberg and Mullainathan (2024) recently proposed a formal framework called language generation in the limit and showed that given a sequence of example strings from an unknown target language drawn from any countable collection, an algorithm can correctly generate unseen strings from the target language within finite time. This notion was further refined by Li, Raman, and Tewari (2024), who defined stricter categories of non-uniform and uniform generation. They showed that a finite union of uniformly generatable collections is generatable in the limit, and asked if the same is true for non-uniform generation. We begin by resolving the question in the negative: we give a uniformly generatable collection and a non-uniformly generatable collection whose union is not generatable in the limit. We then use facets of this construction to further our understanding of several variants of language generation. The first two, generation with noise and without samples, were introduced by Raman and Raman (2025) and Li, Raman, and Tewari (2024) respectively. We show the equivalence of these models for uniform and non-uniform generation, and provide a characterization of non-uniform noisy generation. The former paper asked if there is any separation between noisy and non-noisy generation in the limit -- we show that such a separation exists even with a single noisy string. Finally, we study the framework of generation with feedback, introduced by Charikar and Pabbaraju (2025), where the algorithm is strengthened by allowing it to ask membership queries. We show finite queries add no power, but infinite queries yield a strictly more powerful model. In summary, the results in this paper resolve the union-closedness of language generation in the limit, and leverage those techniques (and others) to give precise characterizations for natural variants that incorporate noise, loss, and feedback.


翻译:Kleinberg与Mullainathan(2024)近期提出了一个名为“极限下的语言生成”的形式化框架,并证明:对于从任意可数集合中抽取的未知目标语言所生成的示例字符串序列,存在算法能在有限时间内正确生成目标语言中未见过的字符串。Li、Raman与Tewari(2024)进一步细化了这一概念,定义了更严格的分类型:非均匀生成与均匀生成。他们证明有限个均匀可生成集合的并集在极限意义下是可生成的,并提出疑问:非均匀生成是否具有相同性质?我们首先否定了该问题:我们构造了一个均匀可生成集合与一个非均匀可生成集合,使得二者的并集在极限意义下不可生成。随后,我们利用该构造的多个维度深化对语言生成若干变体的理解。前两种变体——带噪声的生成与无样本生成——分别由Raman与Raman(2025)以及Li、Raman与Tewari(2024)提出。我们证明了这些模型在均匀与非均匀生成场景下的等价性,并给出了非均匀噪声生成的特征刻画。前文曾质疑带噪声生成与无噪声生成在极限框架下是否存在分离——我们证明即使仅存在单个噪声字符串,此类分离依然存在。最后,我们研究了Charikar与Pabbaraju(2025)提出的带反馈生成框架,该框架通过允许算法提出成员查询来增强其能力。我们证明有限次查询不增加生成能力,但无限次查询会产生严格更强大的模型。综上所述,本文结果解决了极限下语言生成的并集封闭性问题,并运用相关技术(及其他方法)对融合噪声、损失与反馈的自然变体给出了精确的特征刻画。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《使用生成式大语言模型进行多语言事件提取》最新85页
专知会员服务
65+阅读 · 2021年5月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月7日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《使用生成式大语言模型进行多语言事件提取》最新85页
专知会员服务
65+阅读 · 2021年5月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员