Are Sparse Autoencoder Benchmarks Reliable? - 专知论文

会员服务 ·

0

稀疏自编码 · 稀疏 · 基准 · 基准测试 · 稀疏自编码器 ·

Are Sparse Autoencoder Benchmarks Reliable?

翻译：稀疏自编码器基准测试可靠吗？

Sparse autoencoders (SAEs) are a core interpretability tool for large language models, and progress on SAE architectures depends on benchmarks that reliably distinguish better SAEs from worse ones. We audit the SAE quality metrics in SAEBench, the de-facto standard SAE evaluation suite, through three complementary lenses: reseed noise on a fixed SAE, ground-truth correlation on synthetic SAEs, and discriminability across training trajectories. We find that two of these metrics, Targeted Probe Perturbation (TPP) and Spurious Correlation Removal (SCR), fail multiple lenses at their canonical settings and should not be used to evaluate SAEs. The other metrics show higher reseed noise and lower discriminability than the field assumes. The sae-probes variant of $k$-sparse probing is the most reliable metric we tested, but even sae-probes struggles to separate variants of the same SAE architecture. Our results show the field needs better SAE benchmarks.

翻译：稀疏自编码器（SAEs）是大型语言模型的核心可解释性工具，而SAE架构的进展依赖于能够可靠区分优劣SAE的基准测试。我们通过三个互补视角审计了SAEBench（事实上的标准SAE评估套件）中的SAE质量指标：固定SAE的重新播种噪声、合成SAE的真实相关性以及训练轨迹的判别能力。我们发现其中两个指标——目标探针扰动（TPP）和虚假相关性消除（SCR）——在其标准设置下未能通过多个视角的检验，不应用于评估SAE。其他指标表现出比学界假设更高的重新播种噪声和更低的判别能力。$k$-稀疏探针的sae-probes变体是我们测试中最可靠的指标，但即使sae-probes也难以区分同一SAE架构的不同变体。我们的结果表明，学界需要更好的SAE基准测试。

0

相关内容

稀疏自编码

稀疏自编码

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

专知会员服务

36+阅读 · 2024年4月18日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非理想条件下基于联合稀疏恢复的机载雷达杂波抑制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Stable and Steerable Sparse Autoencoders with Weight Regularization

Arxiv

0+阅读 · 6月16日

Rational Sparse Autoencoder

Arxiv

0+阅读 · 6月16日

Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Analyzing Visual Aircraft Representations with Sparse Autoencoders

Arxiv

0+阅读 · 6月13日

Decompose Sparsely Where You Should, Absorb Densely Where You Should No

Arxiv

0+阅读 · 6月12日

Ensembling Sparse Autoencoders

Arxiv

0+阅读 · 6月11日

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Arxiv

0+阅读 · 6月10日

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

Arxiv

0+阅读 · 6月6日

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Arxiv

0+阅读 · 5月15日

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

稀疏自编码

稀疏自编码器

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

专知会员服务

36+阅读 · 2024年4月18日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

Stable and Steerable Sparse Autoencoders with Weight Regularization

Arxiv

0+阅读 · 6月16日

Rational Sparse Autoencoder

Arxiv

0+阅读 · 6月16日

Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Analyzing Visual Aircraft Representations with Sparse Autoencoders

Arxiv

0+阅读 · 6月13日

Decompose Sparsely Where You Should, Absorb Densely Where You Should No

Arxiv

0+阅读 · 6月12日

Ensembling Sparse Autoencoders

Arxiv

0+阅读 · 6月11日

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Arxiv

0+阅读 · 6月10日

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

Arxiv

0+阅读 · 6月6日

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Arxiv

0+阅读 · 5月15日

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

Arxiv

0+阅读 · 5月7日

相关基金

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非理想条件下基于联合稀疏恢复的机载雷达杂波抑制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员