Counterfactual explanations (CEs) provide an intuitive way to understand recommender systems by identifying minimal modifications to user-item interactions that alter recommendation outcomes. Existing CE methods for recommender systems, however, have been evaluated under heterogeneous protocols, using different datasets, recommenders, metrics, and even explanation formats, which hampers reproducibility and fair comparison. Our paper systematically reproduces, re-implement, and re-evaluate eleven state-of-the-art CE methods for recommender systems, covering both native explainers (e.g., LIME-RS, SHAP, PRINCE, ACCENT, LXR, GREASE) and specific graph-based explainers originally proposed for GNNs. Here, a unified benchmarking framework is proposed to assess explainers along three dimensions: explanation format (implicit vs. explicit), evaluation level (item-level vs. list-level), and perturbation scope (user interaction vectors vs. user-item interaction graphs). Our evaluation protocol includes effectiveness, sparsity, and computational complexity metrics, and extends existing item-level assessments to top-K list-level explanations. Through extensive experiments on three real-world datasets and six representative recommender models, we analyze how well previously reported strengths of CE methods generalize across diverse setups. We observe that the trade-off between effectiveness and sparsity depends strongly on the specific method and evaluation setting, particularly under the explicit format; in addition, explainer performance remains largely consistent across item level and list level evaluations, and several graph-based explainers exhibit notable scalability limitations on large recommender graphs. Our results refine and challenge earlier conclusions about the robustness and practicality of CE generation methods in recommender systems: https://github.com/L2R-UET/CFExpRec.


翻译:反事实解释通过识别改变推荐结果所需的最小用户-物品交互修改,为理解推荐系统提供了直观途径。然而,现有推荐系统反事实解释方法在不同协议下进行评估,采用不同数据集、推荐模型、评估指标甚至解释格式,严重阻碍了可复现性与公平比较。本文系统性地复现、重实现并重新评估了11种面向推荐系统的最新反事实解释方法,涵盖原生解释器(如LIME-RS、SHAP、PRINCE、ACCENT、LXR、GREASE)和最初为图神经网络设计的特定图基解释器。我们提出统一的基准测试框架,从三个维度评估解释器:解释格式(隐式与显式)、评估层级(物品级与列表级)以及扰动范围(用户交互向量与用户-物品交互图)。评估协议包含有效性、稀疏性和计算复杂度指标,并将现有物品级评估扩展至Top-K列表级解释。通过在三个真实世界数据集和六种代表性推荐模型上的大量实验,我们分析了先前报告的反事实解释方法优势在多样化配置下的泛化表现。研究发现,有效性与稀疏性之间的权衡强烈依赖于特定方法和评估设置(尤其在显式格式下);此外,解释器在物品级和列表级评估中的性能基本保持一致,而若干图基解释器在大规模推荐图上表现出显著的可扩展性局限。本研究的结论修正并挑战了先前关于推荐系统中反事实解释生成方法鲁棒性与实用性的认识:https://github.com/L2R-UET/CFExpRec。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
可解释图推荐系统
专知会员服务
25+阅读 · 2024年8月4日
可解释推荐:综述与新视角
专知会员服务
114+阅读 · 2019年10月13日
初学者系列:推荐系统Wide & Deep Learning详解
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 3月8日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
1+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
2+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员