It was recently observed that the representations of different models that process identical or semantically related inputs tend to align. We analyze this phenomenon using the Information Imbalance, an asymmetric rank-based measure that quantifies the capability of a representation to predict another, providing a proxy of the cross-entropy which can be computed efficiently in high-dimensional spaces. By measuring the Information Imbalance between representations generated by DeepSeek-V3 processing translations, we find that semantic information is spread across many tokens, and that semantic predictability is strongest in a set of central layers of the network, robust across six language pairs. We measure clear information asymmetries: English representations are systematically more predictive than those of other languages, and DeepSeek-V3 representations are more predictive of those in a smaller model such as Llama3-8b than the opposite. In the visual domain, we observe that semantic information concentrates in middle layers for autoregressive models and in final layers for encoder models, and these same layers yield the strongest cross-modal predictability with textual representations of image captions. Notably, two independently trained models (DeepSeek-V3 and DinoV2) achieve stronger cross-modal predictability than the jointly trained CLIP model, suggesting that model scale may outweigh explicit multimodal training. Our results support the hypothesis of semantic convergence across languages, modalities, and architectures, while showing that directed predictability between representations varies strongly with layer-depth, model scale, and language.


翻译:近期研究发现,处理相同或语义相关输入的不同模型,其表示往往趋于对齐。我们使用信息不平衡性这一非对称的基于排序的度量方法分析该现象,该方法量化了一个表示预测另一个表示的能力,可作为高维空间中可高效计算的交叉熵代理指标。通过测量DeepSeek-V3处理翻译任务时生成表示之间的信息不平衡性,我们发现语义信息分散在多个词元中,且语义可预测性在网络的一组中间层最为显著,这一现象在六种语言对中均保持稳健。我们观测到明显的信息不对称性:英文表示系统性地比其他语言的表示更具预测力;DeepSeek-V3表示对较小模型(如Llama3-8b)表示的预测能力远强于反向预测。在视觉领域,我们观察到自回归模型的语义信息集中于中间层,而编码器模型则集中于最终层,这些层与图像描述文本表示之间具有最强的跨模态可预测性。值得注意的是,两个独立训练的模型(DeepSeek-V3与DinoV2)比联合训练的CLIP模型实现了更强的跨模态可预测性,这表明模型规模可能超越显式的多模态训练。我们的结果支持了跨语言、跨模态与跨架构的语义收敛假说,同时揭示了表示间的定向可预测性随网络层深度、模型规模和语言类型存在显著差异。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
23+阅读 · 2025年7月18日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
一文综述经典的深度文本分类方法
AI100
12+阅读 · 2019年6月8日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
推荐 | 基于深度学习的图像语义分割方法回顾(附PDF下载)
机器学习算法与Python学习
25+阅读 · 2017年12月30日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
23+阅读 · 2025年7月18日
相关资讯
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
一文综述经典的深度文本分类方法
AI100
12+阅读 · 2019年6月8日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
推荐 | 基于深度学习的图像语义分割方法回顾(附PDF下载)
机器学习算法与Python学习
25+阅读 · 2017年12月30日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员