Do different LLM architectures encode high-level concepts in structurally compatible ways? We systematically characterize a geometric-functional universality dissociation: across multiple concept domains and architectural families, moderate geometric convergence coexists with near-perfect functional transfer. Using contrastive-difference CKA (CKA_Delta), a training-free diagnostic that computes kernel alignment on per-sample contrastive differences, we isolate concept-specific convergence from generic similarity -- achieving significant discrimination where standard CKA cannot. The dissociation replicates across all six concept domains we test (five with p <= 0.017 geometric discrimination and safety as a converging-functional trend, p = 0.08), including two non-instruction concepts (code-vs-NL, reasoning-vs-recall) validated without system prompts; a single 70B--70B pair provides an observational note that universality may strengthen with scale, requiring replication with additional >=70B models. We position CKA_Delta as a practical regime classifier and architectural outlier detector (Gemma: d = 1.08, AUC = 0.79) rather than an absolute transfer-accuracy predictor, providing a training-free diagnostic for cross-architecture concept monitoring.


翻译:不同的LLM架构是否以结构兼容的方式编码高层概念?我们系统性地表征了一种几何-功能通用性分离现象:在多个概念领域和架构家族中,适度的几何收敛与近乎完美的功能迁移并存。通过使用对比差异CKA(CKA_Delta)——一种无需训练的诊断方法,该方法在每样本对比差异上计算核对齐——我们从通用相似性中分离出概念特定的收敛,实现了标准CKA无法达到的显著区分能力。这种分离在我们测试的所有六个概念领域中均可复现(其中五个领域的几何区分p <= 0.017,安全领域呈现收敛性功能趋势,p = 0.08),包括两个无需系统提示验证的非指令概念(代码与自然语言对比、推理与回忆对比);单个70B-70B配对提供了通用性可能随规模增强的观察性提示,需使用更多>=70B的模型进行验证。我们将CKA_Delta定位为一种实用的类别分类器和架构异常检测器(Gemma模型:d = 1.08,AUC = 0.79),而非绝对的迁移准确率预测器,从而为跨架构概念监控提供了一种无需训练的诊断工具。

0
下载
关闭预览

相关内容

迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
层级强化学习概念简介
CreateAMind
21+阅读 · 2019年6月9日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 56分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
层级强化学习概念简介
CreateAMind
21+阅读 · 2019年6月9日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员