Logit Distance Bounds Representational Similarity - 专知论文

会员服务 ·

0

对数几率 · 相似性 · KL散度 · 散度 · 蒸馏 ·

Logit Distance Bounds Representational Similarity

翻译：Logit距离界定表征相似性

Beatrix M. B. Nielsen,Emanuele Marconato,Luigi Gresele,Andrea Dittadi,Simon Buchholz

For a broad family of discriminative models that includes autoregressive language models, identifiability results imply that if two models induce the same conditional distributions, then their internal representations agree up to an invertible linear transformation. We ask whether an analogous conclusion holds approximately when the distributions are close instead of equal. Building on the observation of Nielsen et al. (2025) that closeness in KL divergence need not imply high linear representational similarity, we study a distributional distance based on logit differences and show that closeness in this distance does yield linear similarity guarantees. Specifically, we define a representational dissimilarity measure based on the models' identifiability class and prove that it is bounded by the logit distance. We further show that, when model probabilities are bounded away from zero, KL divergence upper-bounds logit distance; yet the resulting bound fails to provide nontrivial control in practice. As a consequence, KL-based distillation can match a teacher's predictions while failing to preserve linear representational properties, such as linear-probe recoverability of human-interpretable concepts. In distillation experiments on synthetic and image datasets, logit-distance distillation yields students with higher linear representational similarity and better preservation of the teacher's linearly recoverable concepts.

翻译：对于包含自回归语言模型在内的广泛判别模型族，可识别性结果表明：若两个模型诱导出相同的条件分布，则其内部表征在可逆线性变换的意义下一致。我们探讨当分布接近而非相等时，近似结论是否成立。基于Nielsen等人（2025）关于KL散度接近性未必蕴含高线性表征相似性的观察，我们研究了一种基于logit差异的分布距离，并证明该距离上的接近性确实能导出线性相似性保证。具体而言，我们基于模型的可识别性类定义了一种表征差异性度量，并证明其受logit距离上界约束。进一步表明，当模型概率远离零时，KL散度可上界logit距离；然而所得上界在实践中无法提供有效约束。因此，基于KL散度的知识蒸馏虽能匹配教师模型的预测，却可能无法保持线性表征特性（例如人类可解释概念的线性探针可恢复性）。在合成与图像数据集上的蒸馏实验中，基于logit距离的蒸馏能使学生模型获得更高的线性表征相似性，并更好地保持教师模型的线性可恢复概念。

0

相关内容

对数几率

内省扩散语言模型

内省扩散语言模型

专知会员服务

13+阅读 · 4月14日

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

专知会员服务

11+阅读 · 2月25日

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

专知会员服务

22+阅读 · 2024年5月8日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【NeurIPS2021】神经网络表示的相似度和匹配

【NeurIPS2021】神经网络表示的相似度和匹配

专知会员服务

27+阅读 · 2021年10月29日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

【ICML2021】域自适应回归的子空间距离表示

专知会员服务

23+阅读 · 2021年6月28日

【斯坦福】距离编码-为结构表示学习设计更强大的GNN.

专知会员服务

45+阅读 · 2020年9月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

常见的距离算法和相似度计算方法

常见的距离算法和相似度计算方法

极市平台

18+阅读 · 2020年7月31日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

机器学习计算距离和相似度的方法

机器学习计算距离和相似度的方法

极市平台

10+阅读 · 2019年9月20日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

文本分析 | 常用距离/相似度一览

文本分析 | 常用距离/相似度一览

数说工作室

26+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于近似对称的扰动方程的若干研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般型代数曲面的自同构和模空间

国家自然科学基金

0+阅读 · 2014年12月31日

Simultaneous separation in bounded degree trees

Arxiv

0+阅读 · 2月26日

Locally Consistent K-relations: Entailment and Axioms of Functional Dependence

Arxiv

0+阅读 · 2月23日

Partial Soft-Matching Distance for Neural Representational Comparison with Partial Unit Correspondence

Arxiv

0+阅读 · 2月22日

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月18日

Computing Distinguishing Formulae for Threshold-Based Behavioural Distances

Arxiv

0+阅读 · 2月12日

Algorithms for Approximating Conditionally Optimal Bounds

Arxiv

0+阅读 · 2月10日

Bounded Modal Logic

Arxiv

0+阅读 · 2月10日

Magnitude Distance: A Geometric Measure of Dataset Similarity

Arxiv

0+阅读 · 2月9日

Efficient Perplexity Bound and Ratio Matching in Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月6日

A Random Matrix Theory Perspective on the Consistency of Diffusion Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

1+阅读 · 今天15:23

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

2+阅读 · 今天15:18

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

4+阅读 · 今天15:00

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

4+阅读 · 今天14:57

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

2+阅读 · 今天14:45

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

0+阅读 · 今天14:18

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

0+阅读 · 今天14:16

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

5+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

4+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

11+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

8+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

10+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

10+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

14+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

相关VIP内容

内省扩散语言模型

内省扩散语言模型

专知会员服务

13+阅读 · 4月14日

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

【博士论文】在离线、在线和策略设置下通过对偶性进行的近似

专知会员服务

11+阅读 · 2月25日

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

专知会员服务

22+阅读 · 2024年5月8日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【NeurIPS2021】神经网络表示的相似度和匹配

【NeurIPS2021】神经网络表示的相似度和匹配

专知会员服务

27+阅读 · 2021年10月29日

【MPG & MILA 】因果表示学习，Towards Causal Representation Learning

专知会员服务

52+阅读 · 2021年7月29日

【ICML2021】域自适应回归的子空间距离表示

专知会员服务

23+阅读 · 2021年6月28日

【斯坦福】距离编码-为结构表示学习设计更强大的GNN.

专知会员服务

45+阅读 · 2020年9月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《反无人机系统传感器融合》90页报告

《Palantir的科技生态系统》

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

相关资讯

常见的距离算法和相似度计算方法

常见的距离算法和相似度计算方法

极市平台

18+阅读 · 2020年7月31日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

机器学习计算距离和相似度的方法

机器学习计算距离和相似度的方法

极市平台

10+阅读 · 2019年9月20日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

文本分析 | 常用距离/相似度一览

文本分析 | 常用距离/相似度一览

数说工作室

26+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Simultaneous separation in bounded degree trees

Arxiv

0+阅读 · 2月26日

Locally Consistent K-relations: Entailment and Axioms of Functional Dependence

Arxiv

0+阅读 · 2月23日

Partial Soft-Matching Distance for Neural Representational Comparison with Partial Unit Correspondence

Arxiv

0+阅读 · 2月22日

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月18日

Computing Distinguishing Formulae for Threshold-Based Behavioural Distances

Arxiv

0+阅读 · 2月12日

Algorithms for Approximating Conditionally Optimal Bounds

Arxiv

0+阅读 · 2月10日

Bounded Modal Logic

Arxiv

0+阅读 · 2月10日

Magnitude Distance: A Geometric Measure of Dataset Similarity

Arxiv

0+阅读 · 2月9日

Efficient Perplexity Bound and Ratio Matching in Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月6日

A Random Matrix Theory Perspective on the Consistency of Diffusion Models

Arxiv

0+阅读 · 2月2日

相关基金

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于近似对称的扰动方程的若干研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般型代数曲面的自同构和模空间

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员