We introduce two reference-free metrics for quality evaluation of taxonomies in the absence of labels. The first metric evaluates robustness by calculating the correlation between semantic and taxonomic similarity, addressing error types not considered by existing metrics. The second uses Natural Language Inference to assess logical adequacy. Both metrics are tested on five taxonomies and are shown to correlate well with F1 against ground truth taxonomies. We further demonstrate that our metrics can predict downstream performance in hierarchical classification when used with label hierarchies.


翻译:本文提出了两种无需参考标签即可评估分类体系质量的无参考指标。第一种指标通过计算语义相似度与分类相似度的相关性来评估鲁棒性,解决了现有指标未考虑的误差类型。第二种指标利用自然语言推理评估逻辑完备性。两种指标在五个分类体系上进行了测试,结果显示其与基于真实分类体系的F1分数具有良好相关性。我们进一步证明,当与标签层次结构结合使用时,本研究所提指标能够有效预测层次分类任务的下游性能。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 2025年11月21日
专知会员服务
38+阅读 · 2021年9月15日
专知会员服务
42+阅读 · 2021年1月18日
专知会员服务
63+阅读 · 2020年3月4日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月5日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 2025年11月21日
专知会员服务
38+阅读 · 2021年9月15日
专知会员服务
42+阅读 · 2021年1月18日
专知会员服务
63+阅读 · 2020年3月4日
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
初学者系列:Deep FM详解
专知
109+阅读 · 2019年8月26日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员