Conversational recommender systems (CRSs) integrate both recommendation and dialogue tasks, making their evaluation uniquely challenging. Existing approaches primarily assess CRS performance by separately evaluating item recommendation and dialogue management using rule-based metrics. However, these methods fail to capture the real human experience, and they cannot draw direct conclusions about the system's overall performance. As conversational recommender systems become increasingly vital in e-commerce, social media, and customer support, the ability to evaluate both recommendation accuracy and dialogue management quality using a single metric, thereby authentically reflecting user experience, has become the principal challenge impeding progress in this field. In this work, we propose a user-centric evaluation framework based on large language models (LLMs) for CRSs, namely Conversational Recommendation Evaluator (CoRE). CoRE consists of two main components: (1) LLM-As-Evaluator. Firstly, we comprehensively summarize 12 key factors influencing user experience in CRSs and directly leverage LLM as an evaluator to assign a score to each factor. (2) Multi-Agent Debater. Secondly, we design a multi-agent debate framework with four distinct roles (common user, domain expert, linguist, and HCI expert) to discuss and synthesize the 12 evaluation factors into a unified overall performance score. Furthermore, we apply the proposed framework to evaluate four CRSs on two benchmark datasets. The experimental results show that CoRE aligns well with human evaluation in most of the 12 factors and the overall assessment. Especially, CoRE's overall evaluation scores demonstrate significantly better alignment with human feedback compared to existing rule-based metrics.


翻译:对话式推荐系统(CRS)融合了推荐与对话两项任务,使其评估面临独特的挑战。现有方法主要通过基于规则的指标分别评估物品推荐和对话管理来评价CRS性能。然而,这些方法未能捕捉真实的人类体验,也无法对系统整体性能得出直接结论。随着对话式推荐系统在电子商务、社交媒体和客户支持中日益重要,如何利用单一指标同时评估推荐准确性和对话管理质量,从而真实反映用户体验,已成为阻碍该领域进展的主要挑战。本研究提出了一种基于大型语言模型(LLM)、以用户为中心的CRS评估框架,即对话式推荐评估器(CoRE)。CoRE包含两个核心组件:(1)LLM即评估器。首先,我们全面总结了影响CRS用户体验的12个关键因素,并直接利用LLM作为评估器为每个因素分配评分。(2)多智能体辩论器。其次,我们设计了一个包含四种不同角色(普通用户、领域专家、语言学家和人机交互专家)的多智能体辩论框架,通过讨论将12个评估因素合成为统一的整体性能评分。此外,我们在两个基准数据集上应用所提框架评估了四种CRS。实验结果表明,在12个因素中的大多数及整体评估上,CoRE与人工评估具有良好的一致性。特别是与现有基于规则的指标相比,CoRE的整体评估分数显示出与人类反馈显著更优的对齐性。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
【IJCAI2024教程】大语言模型(LLMs)时代的推荐系统
专知会员服务
51+阅读 · 2024年8月5日
【KDD2022】基于知识增强提示学习的统一会话推荐系统
专知会员服务
29+阅读 · 2022年6月26日
对话推荐算法研究综述
专知会员服务
50+阅读 · 2022年2月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
推荐系统杂谈
架构文摘
28+阅读 · 2017年9月15日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
【IJCAI2024教程】大语言模型(LLMs)时代的推荐系统
专知会员服务
51+阅读 · 2024年8月5日
【KDD2022】基于知识增强提示学习的统一会话推荐系统
专知会员服务
29+阅读 · 2022年6月26日
对话推荐算法研究综述
专知会员服务
50+阅读 · 2022年2月18日
相关资讯
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
推荐系统杂谈
架构文摘
28+阅读 · 2017年9月15日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员