Textual explanations, generated with large language models (LLMs), are increasingly used to justify recommendations. Yet, evaluating these explanations remains a critical challenge. We advocate a shift in objective: rank, don't generate. We formalize explainable recommendation as a statement-level ranking problem, where systems rank candidate explanatory statements derived from reviews and return the top-k as explanation. This formulation mitigates hallucination by construction and enables fine-grained factual analysis. It also models factor importance through relevance scores and supports standardized, reproducible evaluation with established ranking metrics. Meaningful assessment, however, requires each statement to be explanatory (item facts affecting user experience), atomic (one opinion about one aspect), and unique (paraphrases consolidated), which is challenging to obtain from noisy reviews. We address this with (i) an LLM-based extraction pipeline producing explanatory and atomic statements, and (ii) a scalable, semantic clustering method consolidating paraphrases to enforce uniqueness. Building on this pipeline, we introduce StaR, a benchmark for statement ranking in explainable recommendation, constructed from four Amazon Reviews 2014 product categories. We evaluate popularity-based baselines and state-of-the-art models under global-level (all statements) and item-level (target item statements) ranking. Popularity baselines are competitive in global-level ranking but outperform state-of-the-art models on average in item-level ranking, exposing critical limitations in personalized explanation ranking.


翻译:基于大语言模型生成的文本解释越来越多地被用于证明推荐结果的合理性。然而,评估这些解释仍然是一个关键挑战。我们主张转变目标:进行排序,而非生成。我们将可解释推荐形式化为一个语句级排序问题,系统对从评论中衍生的候选解释性语句进行排序,并返回前k个作为解释。这种形式化通过构造方式减少了幻觉,并实现了细粒度的事实分析。它还通过相关性分数对因素重要性进行建模,并支持基于既定排序指标进行标准化、可复现的评估。然而,有意义的评估要求每个语句具有解释性(影响用户体验的项目事实)、原子性(一个方面的一种观点)和唯一性(合并释义),而这从嘈杂的评论中获取具有挑战性。为此,我们提出:(i) 一个基于大语言模型的抽取流程,用于生成兼具解释性和原子性的语句;(ii) 一种可扩展的语义聚类方法,用于合并释义以确保唯一性。基于此流程,我们引入了StaR——一个面向可解释推荐中语句排序的基准数据集,该数据集基于亚马逊评论2014年数据集中的四个产品类别构建。我们在全局级别(所有语句)和项目级别(目标项目语句)排序下评估了基于流行度的基线方法和最先进模型。流行度基线在全局级排序中具有竞争力,而平均在项目级排序中优于最先进模型,这暴露了个性化解释排序中的关键局限性。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
可解释图推荐系统
专知会员服务
25+阅读 · 2024年8月4日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
【CIKM2020】推荐系统的神经模板解释生成
专知会员服务
34+阅读 · 2020年9月9日
可解释推荐:综述与新视角
专知会员服务
114+阅读 · 2019年10月13日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
可解释图推荐系统
专知会员服务
25+阅读 · 2024年8月4日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
【CIKM2020】推荐系统的神经模板解释生成
专知会员服务
34+阅读 · 2020年9月9日
可解释推荐:综述与新视角
专知会员服务
114+阅读 · 2019年10月13日
相关资讯
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员