当咖啡特征在棺材上激活：特征提取与机制可解释性导向分析 (When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability) - 专知论文

会员服务 ·

0

提取 · 机制可解释性 · 特征提取 · 可解释性 · 分析 ·

When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability

翻译：当咖啡特征在棺材上激活：特征提取与机制可解释性导向分析

Raphael Ronge,Markus Maier,Frederick Eberhardt

from arxiv, 33 pages (65 with appendix), 1 figure

Recent work by Anthropic on Mechanistic interpretability claims to understand and control Large Language Models by extracting human-interpretable features from their neural activation patterns using sparse autoencoders (SAEs). If successful, this approach offers one of the most promising routes for human oversight in AI safety. We conduct an initial stress-test of these claims by replicating their main results with open-source SAEs for Llama 3.1. While we successfully reproduce basic feature extraction and steering capabilities, our investigation suggests that major caution is warranted regarding the generalizability of these claims. We find that feature steering exhibits substantial fragility, with sensitivity to layer selection, steering magnitude, and context. We observe non-standard activation behavior and demonstrate the difficulty to distinguish thematically similar features from one another. While SAE-based interpretability produces compelling demonstrations in selected cases, current methods often fall short of the systematic reliability required for safety-critical applications. This suggests a necessary shift in focus from prioritizing interpretability of internal representations toward reliable prediction and control of model output. Our work contributes to a more nuanced understanding of what mechanistic interpretability has achieved and highlights fundamental challenges for AI safety that remain unresolved.

翻译：Anthropic近期关于机制可解释性的研究声称，通过使用稀疏自编码器（SAEs）从神经网络激活模式中提取人类可解释的特征，能够理解并控制大语言模型。若该方法成功，将为人工智能安全领域的人类监督提供最具前景的路径之一。我们通过对Llama 3.1开源SAEs复现其主要结果，对这些主张进行了初步压力测试。虽然我们成功复现了基础特征提取与导向能力，但研究表明，这些主张的普适性需要高度谨慎对待。我们发现特征导向存在显著脆弱性，对层级选择、导向强度及上下文环境均表现出敏感性。我们观察到非标准激活行为，并证明区分主题相似特征的难度极大。尽管基于SAE的可解释性方法在特定案例中展现出令人信服的演示效果，但当前方法往往无法满足安全关键应用所需的系统可靠性。这表明研究重点需从优先考虑内部表征的可解释性，转向对模型输出的可靠预测与控制。本研究有助于更细致地理解机制可解释性已取得的成果，并揭示人工智能安全领域尚未解决的根本性挑战。

0

相关内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

31+阅读 · 1月24日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

专知会员服务

28+阅读 · 2025年4月1日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【AAMAS2021】机器推理可解释，152页ppt，Machine Reasoning Explainability

专知会员服务

36+阅读 · 2021年5月9日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Arxiv

0+阅读 · 2月4日

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Arxiv

0+阅读 · 2月4日

Sparse Autoencoder Features for Classifications and Transferability

Arxiv

0+阅读 · 2月2日

Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs

Arxiv

0+阅读 · 1月28日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Evaluating Adversarial Robustness of Concept Representations in Sparse Autoencoders

Arxiv

0+阅读 · 1月22日

From Knots to Knobs: Towards Steerable Collaborative Filtering Using Sparse Autoencoders

Arxiv

0+阅读 · 1月16日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

Do Sparse Autoencoders Identify Reasoning Features in Language Models?

Arxiv

0+阅读 · 1月9日

Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

机制可解释性

相关VIP内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

31+阅读 · 1月24日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

专知会员服务

28+阅读 · 2025年4月1日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【AAMAS2021】机器推理可解释，152页ppt，Machine Reasoning Explainability

专知会员服务

36+阅读 · 2021年5月9日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

相关论文

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Arxiv

0+阅读 · 2月4日

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Arxiv

0+阅读 · 2月4日

Sparse Autoencoder Features for Classifications and Transferability

Arxiv

0+阅读 · 2月2日

Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs

Arxiv

0+阅读 · 1月28日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Evaluating Adversarial Robustness of Concept Representations in Sparse Autoencoders

Arxiv

0+阅读 · 1月22日

From Knots to Knobs: Towards Steerable Collaborative Filtering Using Sparse Autoencoders

Arxiv

0+阅读 · 1月16日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

Do Sparse Autoencoders Identify Reasoning Features in Language Models?

Arxiv

0+阅读 · 1月9日

Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders

Arxiv

0+阅读 · 1月6日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员