Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs - 专知论文

会员服务 ·

0

差异分析 · 分析 · 无监督 · 监督 · 识别 ·

Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs

翻译：跨架构模型差异分析：利用Crosscoders无监督发现大语言模型间的差异

Thomas Jiralerspong,Trenton Bricken

Model diffing, the process of comparing models' internal representations to identify their differences, is a promising approach for uncovering safety-critical behaviors in new models. However, its application has so far been primarily focused on comparing a base model with its finetune. Since new LLM releases are often novel architectures, cross-architecture methods are essential to make model diffing widely applicable. Crosscoders are one solution capable of cross-architecture model diffing but have only ever been applied to base vs finetune comparisons. We provide the first application of crosscoders to cross-architecture model diffing and introduce Dedicated Feature Crosscoders (DFCs), an architectural modification designed to better isolate features unique to one model. Using this technique, we find in an unsupervised fashion features including Chinese Communist Party alignment in Qwen3-8B and Deepseek-R1-0528-Qwen3-8B, American exceptionalism in Llama3.1-8B-Instruct, and a copyright refusal mechanism in GPT-OSS-20B. Together, our results work towards establishing cross-architecture crosscoder model diffing as an effective method for identifying meaningful behavioral differences between AI models.

翻译：模型差异分析是通过比较模型内部表征以识别其差异的过程，是揭示新模型中安全关键行为的一种前景广阔的方法。然而，迄今为止，其应用主要集中于比较基础模型与其微调版本。由于新发布的大语言模型通常采用新颖的架构，跨架构方法对于使模型差异分析得到广泛应用至关重要。Crosscoders是一种能够进行跨架构模型差异分析的解决方案，但此前仅应用于基础模型与微调模型的比较。我们首次将Crosscoders应用于跨架构模型差异分析，并引入专用特征Crosscoders，这是一种旨在更好地隔离某一模型独有特征的架构改进。利用该技术，我们以无监督方式发现了包括Qwen3-8B和Deepseek-R1-0528-Qwen3-8B中的中国共产党对齐特征、Llama3.1-8B-Instruct中的美国例外主义特征，以及GPT-OSS-20B中的版权拒绝机制特征。总之，我们的研究成果有助于确立跨架构Crosscoders模型差异分析作为识别人工智能模型间有意义行为差异的有效方法。

0

相关内容

差异分析

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Differential Privacy in Machine Learning: A Survey from Symbolic AI to LLMs

Arxiv

0+阅读 · 3月11日

Domain-Adaptive Model Merging across Disconnected Modes

Arxiv

0+阅读 · 3月6日

Graph-centric Cross-model Data Integration and Analytics in a Unified Multi-model Database

Arxiv

0+阅读 · 3月2日

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

Arxiv

0+阅读 · 2月20日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification

Arxiv

0+阅读 · 2月15日

Transporting Task Vectors across Different Architectures without Training

Arxiv

0+阅读 · 2月13日

Discovering Differences in Strategic Behavior Between Humans and LLMs

Arxiv

0+阅读 · 2月10日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Multiview Self-Representation Learning across Heterogeneous Views

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

3+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

2+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

5+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Differential Privacy in Machine Learning: A Survey from Symbolic AI to LLMs

Arxiv

0+阅读 · 3月11日

Domain-Adaptive Model Merging across Disconnected Modes

Arxiv

0+阅读 · 3月6日

Graph-centric Cross-model Data Integration and Analytics in a Unified Multi-model Database

Arxiv

0+阅读 · 3月2日

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

Arxiv

0+阅读 · 2月20日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification

Arxiv

0+阅读 · 2月15日

Transporting Task Vectors across Different Architectures without Training

Arxiv

0+阅读 · 2月13日

Discovering Differences in Strategic Behavior Between Humans and LLMs

Arxiv

0+阅读 · 2月10日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Multiview Self-Representation Learning across Heterogeneous Views

Arxiv

0+阅读 · 2月4日

相关基金

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员