Intrinsic evaluation metrics for conditional language models, such as perplexity or bits-per-character, are widely used in both mono- and multilingual settings. These metrics are rather straightforward to use and compare in monolingual setups, but rest on a number of assumptions in multilingual setups. One such assumption is that comparing the perplexity of CLMs on parallel sentences is indicative of their quality since the information content (here understood as the semantic meaning) is the same. However, the metrics are inherently measuring information content in the information-theoretic sense. We make this and other such assumptions explicit and discuss their implications. We perform experiments with six metrics on two multi-parallel corpora both with mono- and multilingual models. Ultimately, we find that current metrics are not universally comparable. We look at the form-meaning debate to provide some explanation for this.


翻译:条件语言模型的内在评估指标,如困惑度或每字符比特数,在单语言和多语言场景中均被广泛采用。这些指标在单语言设置中的使用和比较相对直接,但在多语言设置中则基于一系列假设。其中一个假设是:由于信息内容(此处理解为语义含义)相同,比较条件语言模型在平行句上的困惑度即可反映其质量。然而,这些指标本质上是从信息论角度衡量信息内容。我们明确阐述了此假设及其他类似假设,并探讨了其影响。我们在两个多平行语料库上,使用单语言和多语言模型,对六种指标进行了实验。最终,我们发现现有指标并非普遍可比。我们借鉴形式与意义的理论辩论,为此现象提供了一些解释。

0
下载
关闭预览

相关内容

【CIKM2025教程】语言模型的公平性:一篇教程,170页ppt
专知会员服务
16+阅读 · 2025年11月16日
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
最新《生成式语言模型: 信息论视角》报告,292页ppt
专知会员服务
29+阅读 · 2020年11月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员