Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path - 专知论文

会员服务 ·

0

令牌 · 结构 · 梯度 · 路径 · 基于梯度的 ·

Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path

翻译：电路指纹：答案令牌如何编码其几何路径

Andres Saurez,Neha Sengar,Dongsoo Har

from arxiv, Submitted to ICML 2026. 15 pages, 11 figures

Circuit discovery and activation steering in transformers have developed as separate research threads, yet both operate on the same representational space. Are they two views of the same underlying structure? We show they follow a single geometric principle: answer tokens, processed in isolation, encode the directions that would produce them. This Circuit Fingerprint hypothesis enables circuit discovery without gradients or causal intervention -- recovering comparable structure to gradient-based methods through geometric alignment alone. We validate this on standard benchmarks (IOI, SVA, MCQA) across four model families, achieving circuit discovery performance comparable to gradient-based methods. The same directions that identify circuit components also enable controlled steering -- achieving 69.8\% emotion classification accuracy versus 53.1\% for instruction prompting while preserving factual accuracy. Beyond method development, this read-write duality reveals that transformer circuits are fundamentally geometric structures: interpretability and controllability are two facets of the same object.

翻译：在Transformer模型中，电路发现与激活导向已发展为两个独立的研究方向，但它们都作用于同一表征空间。它们是否是同一底层结构的两种视角？我们证明它们遵循单一的几何原理：在孤立状态下处理的答案令牌，编码了能够生成它们的空间方向。这一“电路指纹”假说使得无需梯度或因果干预即可实现电路发现——仅通过几何对齐就能恢复出与基于梯度的方法相当的结构。我们在四个模型系列的标准基准测试（IOI、SVA、MCQA）上验证了这一假说，实现的电路发现性能与基于梯度的方法相当。那些识别电路组件的方向同样能实现可控的导向——在保持事实准确性的同时，情感分类准确率达到69.8%，而指令提示方法仅为53.1%。除了方法开发之外，这种读写双重性揭示了Transformer电路本质上是几何结构：可解释性与可控性实为同一对象的两个侧面。

0

相关内容

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

IJCAI 2022 | 端到端的几何transformer：用于分子属性预测

IJCAI 2022 | 端到端的几何transformer：用于分子属性预测

专知会员服务

13+阅读 · 2022年12月26日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

新智元

12+阅读 · 2018年6月13日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

一文读懂「Attention is All You Need」| 附代码实现

一文读懂「Attention is All You Need」| 附代码实现

PaperWeekly

37+阅读 · 2018年1月10日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于几何形状的彩色纹理分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Wire Your Way: Hardware-Contextualized Guidance and In-situ Tests for Personalized Circuit Prototyping

Arxiv

0+阅读 · 3月5日

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Arxiv

0+阅读 · 3月3日

TactileWalk: Dynamic Electrotactile Patterns for Fingertip-Based Interaction During Walking

Arxiv

0+阅读 · 3月2日

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Arxiv

0+阅读 · 2月27日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 2月24日

Compiling Quantum Lambda-Terms into Circuits via the Geometry of Interaction

Arxiv

0+阅读 · 2月19日

Simpler Presentations for Many Fragments of Quantum Circuits

Arxiv

0+阅读 · 2月10日

The Representational Geometry of Number

Arxiv

0+阅读 · 2月6日

Reg4Pru: Regularisation Through Random Token Routing for Token Pruning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

基于梯度的

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

1+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

1+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

13+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

21种Transformers目标检测方法！德国人工智能研究中心等最新《Transformers 2D目标检测》综述

专知会员服务

57+阅读 · 2023年6月9日

IJCAI 2022 | 端到端的几何transformer：用于分子属性预测

IJCAI 2022 | 端到端的几何transformer：用于分子属性预测

专知会员服务

13+阅读 · 2022年12月26日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

新智元

12+阅读 · 2018年6月13日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

一文读懂「Attention is All You Need」| 附代码实现

一文读懂「Attention is All You Need」| 附代码实现

PaperWeekly

37+阅读 · 2018年1月10日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

相关论文

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Wire Your Way: Hardware-Contextualized Guidance and In-situ Tests for Personalized Circuit Prototyping

Arxiv

0+阅读 · 3月5日

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Arxiv

0+阅读 · 3月3日

TactileWalk: Dynamic Electrotactile Patterns for Fingertip-Based Interaction During Walking

Arxiv

0+阅读 · 3月2日

TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Arxiv

0+阅读 · 2月27日

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Arxiv

0+阅读 · 2月24日

Compiling Quantum Lambda-Terms into Circuits via the Geometry of Interaction

Arxiv

0+阅读 · 2月19日

Simpler Presentations for Many Fragments of Quantum Circuits

Arxiv

0+阅读 · 2月10日

The Representational Geometry of Number

Arxiv

0+阅读 · 2月6日

Reg4Pru: Regularisation Through Random Token Routing for Token Pruning

Arxiv

0+阅读 · 2月2日

相关基金

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于几何形状的彩色纹理分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员