We propose semantic smoothing, a smoothing method for language models that uses embeddings to share statistical observations across semantically similar contexts. The starting point is a decomposition of log-perplexity that motivates smoothing as a collection of distribution-estimation problems under Kullback-Leibler (KL) loss. We then show that, under a Lipschitz-logit model for embedding-based language generation, proximity of context embeddings implies proximity of the corresponding next-word distributions in KL divergence. Combining these observations, we formulate semantic smoothing as distribution estimation in KL loss with KL-proximity side information. For $n$ samples on a $d$-symbol alphabet with a side-information distribution at KL distance $Δ$, we give an interpolation estimator with worst-case KL risk $O(\min\{Δ,d/n\})$, and prove a matching-order lower bound for uniform side information. We extend the estimator to multiple and empirically estimated synonymous distributions. Experiments on synthetic Markov data and WikiText-103 bigram models using Word2Vec, GloVe, and GPT-2 embeddings show that semantic smoothing consistently reduces test perplexity when applied to add-constant and Kneser-Ney estimates.


翻译:我们提出语义平滑,一种利用嵌入在语义相似上下文间共享统计观测的语言模型平滑方法。其出发点是对数困惑度的分解,将平滑问题转化为在Kullback-Leibler(KL)损失下的分布估计问题集合。随后我们证明,在基于嵌入的语言生成的Lipschitz-logit模型假设下,上下文嵌入的邻近性意味着对应下一个词分布在KL散度上的邻近性。结合这些观察,我们将语义平滑形式化为一种带有KL邻近性辅助信息的KL损失分布估计问题。针对包含$n$个样本的$d$符号字母表,给定KL距离为$Δ$的辅助信息分布,我们提出一种插值估计器,其最坏情况下KL风险为$O(\min\{Δ,d/n\})$,并针对均匀辅助信息证明匹配阶的下界。我们将该估计器扩展至多个同义分布及其经验估计情形。在合成马尔可夫数据和Wikitext-103二元语法模型上的实验表明,采用Word2Vec、GloVe和GPT-2嵌入时,语义平滑在应用于加常数估计和Kneser-Ney估计后,能持续降低测试困惑度。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【CIKM2025教程】语言模型的公平性:一篇教程,170页ppt
专知会员服务
16+阅读 · 2025年11月16日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月10日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【CIKM2025教程】语言模型的公平性:一篇教程,170页ppt
专知会员服务
16+阅读 · 2025年11月16日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员