Human evaluation has always been expensive while researchers struggle to trust the automatic metrics. To address this, we propose to customise traditional metrics by taking advantages of the pre-trained language models (PLMs) and the limited available human labelled scores. We first re-introduce the hLEPOR metric factors, followed by the Python version we developed (ported) which achieved the automatic tuning of the weighting parameters in hLEPOR metric. Then we present the customised hLEPOR (cushLEPOR) which uses Optuna hyper-parameter optimisation framework to fine-tune hLEPOR weighting parameters towards better agreement to pre-trained language models (using LaBSE) regarding the exact MT language pairs that cushLEPOR is deployed to. We also optimise cushLEPOR towards professional human evaluation data based on MQM and pSQM framework on English-German and Chinese-English language pairs. The experimental investigations show cushLEPOR boosts hLEPOR performances towards better agreements to PLMs like LaBSE with much lower cost, and better agreements to human evaluations including MQM and pSQM scores, and yields much better performances than BLEU (data available at \url{https://github.com/poethan/cushLEPOR}). Official results show that our submissions win three language pairs including \textbf{English-German} and \textbf{Chinese-English} on \textit{News} domain via cushLEPOR(LM) and \textbf{English-Russian} on \textit{TED} domain via hLEPOR.


翻译:人类评估总是昂贵的, 而研究人员则在努力信任自动测量值时 。 为了解决这个问题, 我们提议通过利用预先培训的语言模型( PLM) 和有限的现有人标分数的优势, 定制传统测量值。 我们首先重新引入了 hLEPOR 测量系数, 其次是我们开发的 Python 版本( 移植), 实现了在 hLEPOR 测量值中加权参数的自动调试。 然后我们展示了定制的 hLEPOR (cushLEPOR) (cushLEPOR) (cushLEPOR) 优化框架, 它使用微调 HLEPOR 加权参数, 以更好地商定预先培训的语言模型( 使用 LaBSE ) 。 我们开发的 cushLEPOR 测量值, 之后我们又选择了基于 MQM 和 PSQM 的人类评估数据。 实验调查显示, CushLEPLOLORO} 在像 PLEBEE 的更好协议上显示, 包括最低成本, 和更好的内部评估。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年5月6日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
已删除
将门创投
8+阅读 · 2019年1月4日
Arxiv
14+阅读 · 2020年1月27日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Phrase-Based & Neural Unsupervised Machine Translation
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
Top
微信扫码咨询专知VIP会员