For a broad family of discriminative models that includes autoregressive language models, identifiability results imply that if two models induce the same conditional distributions, then their internal representations agree up to an invertible linear transformation. We ask whether an analogous conclusion holds approximately when the distributions are close instead of equal. Building on the observation of Nielsen et al. (2025) that closeness in KL divergence need not imply high linear representational similarity, we study a distributional distance based on logit differences and show that closeness in this distance does yield linear similarity guarantees. Specifically, we define a representational dissimilarity measure based on the models' identifiability class and prove that it is bounded by the logit distance. We further show that, when model probabilities are bounded away from zero, KL divergence upper-bounds logit distance; yet the resulting bound fails to provide nontrivial control in practice. As a consequence, KL-based distillation can match a teacher's predictions while failing to preserve linear representational properties, such as linear-probe recoverability of human-interpretable concepts. In distillation experiments on synthetic and image datasets, logit-distance distillation yields students with higher linear representational similarity and better preservation of the teacher's linearly recoverable concepts.


翻译:对于包含自回归语言模型在内的广泛判别模型族,可识别性结果表明:若两个模型诱导出相同的条件分布,则其内部表征在可逆线性变换的意义下一致。我们探讨当分布接近而非相等时,近似结论是否成立。基于Nielsen等人(2025)关于KL散度接近性未必蕴含高线性表征相似性的观察,我们研究了一种基于logit差异的分布距离,并证明该距离上的接近性确实能导出线性相似性保证。具体而言,我们基于模型的可识别性类定义了一种表征差异性度量,并证明其受logit距离上界约束。进一步表明,当模型概率远离零时,KL散度可上界logit距离;然而所得上界在实践中无法提供有效约束。因此,基于KL散度的知识蒸馏虽能匹配教师模型的预测,却可能无法保持线性表征特性(例如人类可解释概念的线性探针可恢复性)。在合成与图像数据集上的蒸馏实验中,基于logit距离的蒸馏能使学生模型获得更高的线性表征相似性,并更好地保持教师模型的线性可恢复概念。

0
下载
关闭预览

相关内容

【NeurIPS2021】神经网络表示的相似度和匹配
专知会员服务
27+阅读 · 2021年10月29日
专知会员服务
23+阅读 · 2021年6月28日
专知会员服务
52+阅读 · 2021年6月16日
专知会员服务
45+阅读 · 2020年9月3日
常见的距离算法和相似度计算方法
极市平台
18+阅读 · 2020年7月31日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
VIP会员
相关资讯
常见的距离算法和相似度计算方法
极市平台
18+阅读 · 2020年7月31日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员