The Quantum Sieve Tracer: A Hybrid Framework for Layer-Wise Activation Tracing in Large Language Models - 专知论文

会员服务 ·

0

混合 · 阿里巴巴 · 分析 · 语言模型 · LLaMA ·

The Quantum Sieve Tracer: A Hybrid Framework for Layer-Wise Activation Tracing in Large Language Models

翻译：量子筛追踪器：一种用于大语言模型中逐层激活追踪的混合框架

from arxiv, 4 pages, 4 figures

Mechanistic interpretability aims to reverse-engineer the internal computations of Large Language Models (LLMs), yet separating sparse semantic signals from high-dimensional polysemantic noise remains a significant challenge. This paper introduces the Quantum Sieve Tracer, a hybrid quantum-classical framework designed to characterize factual recall circuits. We implement a modular pipeline that first localizes critical layers using classical causal tracing, then maps specific attention head activations into an exponentially large quantum Hilbert space. Using open-weight models (Meta Llama-3.2-1B and Alibaba Qwen2.5-1.5B-Instruct), we perform a two-stage analysis that reveals a fundamental architectural divergence. While Qwen's layer 7 circuit functions as a classic Recall Hub, we discover that Llama's layer 9 acts as an Interference Suppression circuit, where ablating the identified heads paradoxically improves factual recall. Our results demonstrate that quantum kernels can distinguish between these constructive (recall) and reductive (suppression) mechanisms, offering a high-resolution tool for analyzing the fine-grained topology of attention.

翻译：机制可解释性旨在逆向工程大语言模型的内部计算，然而从高维多义性噪声中分离稀疏语义信号仍然是一个重大挑战。本文提出了量子筛追踪器，这是一种专为刻画事实回忆电路而设计的混合量子-经典框架。我们实现了一个模块化流程：首先使用经典因果追踪定位关键层，然后将特定注意力头激活映射到指数级大的量子希尔伯特空间中。利用开源权重模型（Meta Llama-3.2-1B 与阿里巴巴 Qwen2.5-1.5B-Instruct），我们进行了两阶段分析，揭示了一个根本性的架构差异。虽然Qwen的第7层电路发挥着经典“回忆枢纽”的功能，但我们发现Llama的第9层扮演着“干扰抑制电路”的角色——切除已识别的注意力头反而能提升事实回忆性能。我们的结果表明，量子核能够区分这种建构性（回忆）与还原性（抑制）机制，为分析注意力的细粒度拓扑结构提供了一种高分辨率工具。

0

相关内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

基于大语言模型的知识图谱逻辑规则挖掘框架及应用

基于大语言模型的知识图谱逻辑规则挖掘框架及应用

专知会员服务

27+阅读 · 2025年5月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

专知会员服务

30+阅读 · 2022年6月21日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

具有噪声容忍度的量子测量方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

混合信号Sigma-Delta调制器设计自动化关键算法研究与软件实现

国家自然科学基金

0+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

Arxiv

0+阅读 · 3月15日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Towards a Hybrid Quantum-Classical Computing Framework for Database Optimization Problems in Real Time Setup

Arxiv

0+阅读 · 2月15日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月12日

Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing

Arxiv

0+阅读 · 2月10日

EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs

Arxiv

0+阅读 · 2月6日

Quantum Circuit Generation via test-time learning with large language models

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月5日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Accelerating the Tesseract Decoder for Quantum Error Correction

Arxiv

0+阅读 · 2月4日

EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 41分钟前

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 43分钟前

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

4+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

3+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

11+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

12+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

14+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

19+阅读 · 4月19日

相关VIP内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

基于大语言模型的知识图谱逻辑规则挖掘框架及应用

基于大语言模型的知识图谱逻辑规则挖掘框架及应用

专知会员服务

27+阅读 · 2025年5月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

什么是量子神经网络？陶大程等发布最新《量子生成学习模型》研究综述，30页pdf涵盖305篇文献讲述最新量子神经网络进展

专知会员服务

30+阅读 · 2022年6月21日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

高效视频扩散模型：进展与挑战

军事通信系统与设备的技术演进综述

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

乌克兰前线的五项创新

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

相关论文

Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

Arxiv

0+阅读 · 3月15日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Towards a Hybrid Quantum-Classical Computing Framework for Database Optimization Problems in Real Time Setup

Arxiv

0+阅读 · 2月15日

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月12日

Quantum-Audit: Evaluating the Reasoning Limits of LLMs on Quantum Computing

Arxiv

0+阅读 · 2月10日

EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs

Arxiv

0+阅读 · 2月6日

Quantum Circuit Generation via test-time learning with large language models

Quantum Circuit Generation via test-time learning with large language models

Arxiv

0+阅读 · 2月5日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Accelerating the Tesseract Decoder for Quantum Error Correction

Arxiv

0+阅读 · 2月4日

EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models

Arxiv

0+阅读 · 2月2日

相关基金

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

具有噪声容忍度的量子测量方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

混合信号Sigma-Delta调制器设计自动化关键算法研究与软件实现

国家自然科学基金

0+阅读 · 2014年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员