Text summarization has a wide range of applications in many scenarios. The evaluation of the quality of the generated text is a complex problem. A big challenge to language evaluation is that there is a clear divergence between existing metrics and human evaluation. For example, the quality of a document summary can be measured by human annotators from both objective aspects, such as grammatical and semantic correctness, as well as subjective dimensions, such as comprehensiveness, succinctness, and interestingness. Most of the automatic evaluation methods like BLUE/ROUGE may be not able to capture the above dimensions well. In this paper, we propose a new evaluation framework based on LLMs, which provides a comprehensive evaluation framework by comparing generated text and reference text from both objective and subjective aspects. First, we propose to model objective and subjective dimensions of generated text based on roleplayers prompting mechanism. Furthermore, we introduce a context-based prompting mechanism that is able to generate dynamic roleplayer profiles based on input context. Finally, we design a multi-roleplayer prompting technology based on batch prompting to integrate multiple evaluation results into evaluation results. Experimental results on two real datasets for summarization show that our model is highly competitive and has a very high consistency with human annotators.


翻译:文本摘要在众多场景中具有广泛应用,而评估生成文本的质量是一个复杂问题。语言评估面临的一大挑战是现有指标与人工评估之间存在明显分歧。例如,文档摘要的质量可由人工标注者从客观方面(如语法和语义正确性)以及主观维度(如全面性、简洁性和趣味性)来衡量。大多数自动评估方法(如BLUE/ROUGE)可能无法很好地捕捉上述维度。本文提出了一种基于大语言模型的新评估框架,通过从客观和主观两方面比较生成文本与参考文本,提供全面的评估体系。首先,我们基于角色扮演提示机制,对生成文本的客观与主观维度进行建模。进一步,我们引入一种基于上下文的提示机制,能够根据输入上下文生成动态的角色扮演者画像。最后,我们设计了基于批量提示的多角色扮演者提示技术,将多个评估结果整合为最终评估结果。在两个真实摘要数据集上的实验表明,我们的模型具有高度竞争力,且与人工标注者的一致性极高。

0
下载
关闭预览

相关内容

【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
25+阅读 · 2022年1月11日
专知会员服务
33+阅读 · 2021年10月9日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
【论文笔记】基于强化学习的句子摘要排序
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
1+阅读 · 2023年5月15日
Arxiv
2+阅读 · 2023年5月12日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
25+阅读 · 2022年1月11日
专知会员服务
33+阅读 · 2021年10月9日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员