Effective evaluation methods remain a significant challenge for research on open-domain conversational dialogue systems. Explicit satisfaction ratings can be elicited from users, but users often do not provide ratings when asked, and those they give can be highly subjective. Post-hoc ratings by experts are an alternative, but these can be both expensive and complex to collect. Here, we explore the creation of automated methods for predicting both expert and user ratings of open-domain dialogues. We compare four different approaches. First, we train a baseline model using an end-to-end transformer to predict ratings directly from the raw dialogue text. The other three methods are variants of a two-stage approach in which we first extract interpretable features at the turn level that capture, among other aspects, user dialogue behaviors indicating contradiction, repetition, disinterest, compliments, or criticism. We project these features to the dialogue level and train a dialogue-level MLP regression model, a dialogue-level LSTM, and a novel causal inference model called counterfactual-LSTM (CF-LSTM) to predict ratings. The proposed CF-LSTM is a sequential model over turn-level features which predicts ratings using multiple regressors depending on hypotheses derived from the turn-level features. As a causal inference model, CF-LSTM aims to learn the underlying causes of a specific event, such as a low rating. We also bin the user ratings and perform classification experiments with all four models. In evaluation experiments on conversational data from the Alexa Prize SocialBot, we show that the CF-LSTM achieves the best performance for predicting dialogue ratings and classification.


翻译:有效评估方法仍是开放域对话系统研究中的重大挑战。虽然可以通过用户获取明确的满意度评分,但用户常在询问时拒绝评分,且已提供的评分往往具有高度主观性。专家事后评分是替代方案,但这类评分既昂贵又难以收集。本文探索了自动预测开放域对话中专家评分与用户评分的方法,比较了四种不同方案:首先,我们训练了基于端到端Transformer的基线模型,直接从原始对话文本预测评分;其余三种方法均采用两阶段变体,首先在话轮层面提取可解释特征,捕捉包括用户对话行为中的矛盾、重复、不感兴趣、称赞或批评在内的多方面信息。我们将这些特征投影至对话层面,训练了对话级MLP回归模型、对话级LSTM,以及名为反事实LSTM(CF-LSTM)的新型因果推断模型进行评分预测。提出的CF-LSTM是基于话轮特征序列的模型,通过依据话轮特征推导出的假设使用多个回归器预测评分。作为因果推断模型,CF-LSTM旨在学习特定事件(如低评分)的根本原因。我们还对用户评分进行分箱处理,并采用全部四种模型执行分类实验。基于Alexa Prize SocialBot对话数据的评估实验表明,CF-LSTM在对话评分预测与分类任务中均达到最优性能。

0
下载
关闭预览

相关内容

不可错过!700+ppt《因果推理》课程!杜克大学Fan Li教程
专知会员服务
73+阅读 · 2022年7月11日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
65+阅读 · 2020年12月11日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Improving Monte Carlo Evaluation with Offline Data
Arxiv
0+阅读 · 2023年3月23日
Arxiv
0+阅读 · 2023年3月23日
Arxiv
0+阅读 · 2023年3月22日
Arxiv
0+阅读 · 2023年3月21日
Arxiv
45+阅读 · 2022年9月19日
Arxiv
15+阅读 · 2020年12月17日
Arxiv
113+阅读 · 2020年2月5日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关论文
Improving Monte Carlo Evaluation with Offline Data
Arxiv
0+阅读 · 2023年3月23日
Arxiv
0+阅读 · 2023年3月23日
Arxiv
0+阅读 · 2023年3月22日
Arxiv
0+阅读 · 2023年3月21日
Arxiv
45+阅读 · 2022年9月19日
Arxiv
15+阅读 · 2020年12月17日
Arxiv
113+阅读 · 2020年2月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员