Evaluating text revision in scientific writing remains a challenge, as traditional metrics such as ROUGE and BERTScore primarily focus on similarity rather than capturing meaningful improvements. In this work, we analyse and identify the limitations of these metrics and explore alternative evaluation methods that better align with human judgments. We first conduct a manual annotation study to assess the quality of different revisions. Then, we investigate reference-free evaluation metrics from related NLP domains. Additionally, we examine LLM-as-a-judge approaches, analysing their ability to assess revisions with and without a gold reference. Our results show that LLMs effectively assess instruction-following but struggle with correctness, while domain-specific metrics provide complementary insights. We find that a hybrid approach combining LLM-as-a-judge evaluation and task-specific metrics offers the most reliable assessment of revision quality.


翻译:评估科学写作中的文本修订仍具挑战性,因为传统指标如ROUGE和BERTScore主要关注相似性,而非捕捉有意义的改进。在本研究中,我们分析并指出了这些指标的局限性,并探索了能更好与人类判断对齐的替代评估方法。我们首先进行了一项人工标注研究,以评估不同修订版本的质量。随后,我们调查了来自相关自然语言处理领域的无参考评估指标。此外,我们还研究了LLM-as-a-judge方法,分析了其在有或无黄金参考情况下评估修订的能力。我们的结果表明,大型语言模型能有效评估指令遵循情况,但在正确性方面存在困难,而领域特定指标则提供了互补的见解。我们发现,结合LLM-as-a-judge评估与任务特定指标的混合方法,能为修订质量提供最可靠的评估。

0
下载
关闭预览

相关内容

【KDD2023】科技论文弱监督多标签分类
专知会员服务
21+阅读 · 2023年7月6日
专知会员服务
26+阅读 · 2021年7月17日
还在修改博士论文?这份《博士论文写作技巧》为你指南
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
深度学习文本分类方法综述(代码)
专知
11+阅读 · 2018年6月15日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
相关资讯
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
深度学习文本分类方法综述(代码)
专知
11+阅读 · 2018年6月15日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员