Understanding Internal Representations of Recommendation Models with Sparse Autoencoders - 专知论文

会员服务 ·

0

推荐模型 · 表示 · 稀疏 · 稀疏自编码 · 稀疏自编码器 ·

Understanding Internal Representations of Recommendation Models with Sparse Autoencoders

翻译：基于稀疏自编码器的推荐模型内部表示理解

Jiayin Wang,Xiaoyu Zhang,Weizhi Ma,Zhiqiang Guo,Min Zhang

Recommendation model interpretation aims to reveal the relationships between inputs, model internal representations and outputs to enhance the transparency, interpretability, and trustworthiness of recommendation systems. However, the inherent complexity and opacity of deep learning models pose challenges for model-level interpretation. Moreover, most existing methods for interpreting recommendation models are tailored to specific architectures or model types, limiting their generalizability across different types of recommenders. In this paper, we propose RecSAE, a generalizable probing framework that interprets Recommendation models with Sparse AutoEncoders. The framework extracts interpretable latents from the internal representations of recommendation models, and links them to semantic concepts for interpretations. It does not alter original models during interpretations and also enables targeted tuning to models. Experiments on three types of recommendation models (general, graph-based, sequential) with four widely used public datasets demonstrate the effectiveness and generalization of RecSAE framework. The interpreted concepts are further validated by human experts, showing strong alignment with human perception. Overall, RecSAE serves as a novel step in both model-level interpretations to various types of recommendation models without affecting their functions and offering potential for targeted tuning of models.

翻译：推荐模型解释旨在揭示输入、模型内部表示与输出之间的关系，以增强推荐系统的透明度、可解释性与可信度。然而，深度学习模型固有的复杂性与不透明性为模型级解释带来了挑战。此外，现有的大多数推荐模型解释方法均针对特定架构或模型类型设计，限制了其在不同类型推荐器间的泛化能力。本文提出RecSAE，一种基于稀疏自编码器的通用探测框架，用于解释推荐模型。该框架从推荐模型的内部表示中提取可解释的潜在变量，并将其与语义概念关联以实现解释。该框架在解释过程中不修改原始模型，同时支持对模型进行定向调优。在三种类型推荐模型（通用型、基于图、序列型）及四个广泛使用的公开数据集上的实验验证了RecSAE框架的有效性与泛化能力。经解释的概念进一步由领域专家验证，显示出与人类认知的高度一致性。总体而言，RecSAE在不影响各类推荐模型功能的前提下，为模型级解释提供了新的研究路径，并为模型的定向调优提供了潜在可能。

0

相关内容

推荐模型

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

可解释图推荐系统

可解释图推荐系统

专知会员服务

24+阅读 · 2024年8月4日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【CIKM2020】推荐系统的神经模板解释生成

【CIKM2020】推荐系统的神经模板解释生成

专知会员服务

34+阅读 · 2020年9月9日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

一文看懂AutoEncoder模型演进图谱

一文看懂AutoEncoder模型演进图谱

AINLP

12+阅读 · 2019年6月17日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Sparse Autoencoders for Sequential Recommendation Models: Interpretation and Flexible Control

Arxiv

0+阅读 · 2月17日

Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation

Arxiv

0+阅读 · 2月13日

Efficient Learning of Sparse Representations from Interactions

Arxiv

0+阅读 · 2月10日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

An Interpretable Recommendation Model for Psychometric Data, With an Application to Gerontological Primary Care

Arxiv

0+阅读 · 1月27日

NIMO: a Nonlinear Interpretable MOdel

Arxiv

0+阅读 · 1月27日

GCFX: Generative Counterfactual Explanations for Deep Graph Models at the Model Level

Arxiv

0+阅读 · 1月26日

EncodeRec: An Embedding Backbone for Recommendation Systems

Arxiv

0+阅读 · 1月15日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

稀疏自编码

稀疏自编码器

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

6+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

4+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

8+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

可解释图推荐系统

可解释图推荐系统

专知会员服务

24+阅读 · 2024年8月4日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【CIKM2020】推荐系统的神经模板解释生成

【CIKM2020】推荐系统的神经模板解释生成

专知会员服务

34+阅读 · 2020年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

一文看懂AutoEncoder模型演进图谱

一文看懂AutoEncoder模型演进图谱

AINLP

12+阅读 · 2019年6月17日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Sparse Autoencoders for Sequential Recommendation Models: Interpretation and Flexible Control

Arxiv

0+阅读 · 2月17日

Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation

Arxiv

0+阅读 · 2月13日

Efficient Learning of Sparse Representations from Interactions

Arxiv

0+阅读 · 2月10日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

An Interpretable Recommendation Model for Psychometric Data, With an Application to Gerontological Primary Care

Arxiv

0+阅读 · 1月27日

NIMO: a Nonlinear Interpretable MOdel

Arxiv

0+阅读 · 1月27日

GCFX: Generative Counterfactual Explanations for Deep Graph Models at the Model Level

Arxiv

0+阅读 · 1月26日

EncodeRec: An Embedding Backbone for Recommendation Systems

Arxiv

0+阅读 · 1月15日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

相关基金

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员