We introduce two reference-free metrics for quality evaluation of taxonomies in the absence of labels. The first metric evaluates robustness by calculating the correlation between semantic and taxonomic similarity, addressing error types not considered by existing metrics. The second uses Natural Language Inference to assess logical adequacy. Both metrics are tested on five taxonomies and are shown to correlate well with F1 against ground truth taxonomies. We further demonstrate that our metrics can predict downstream performance in hierarchical classification when used with label hierarchies.


翻译:本文提出了两种无需参考标签即可评估分类体系质量的无参考指标。第一种指标通过计算语义相似度与分类相似度的相关性来评估鲁棒性,解决了现有指标未考虑的误差类型。第二种指标利用自然语言推理评估逻辑完备性。两种指标在五个分类体系上进行了测试,结果显示其与基于真实分类体系的F1分数具有良好相关性。我们进一步证明,当与标签层次结构结合使用时,本研究所提指标能够有效预测层次分类任务的下游性能。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库
专知会员服务
8+阅读 · 2025年6月29日
【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
专知会员服务
52+阅读 · 2021年5月15日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关VIP内容
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库
专知会员服务
8+阅读 · 2025年6月29日
【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
专知会员服务
52+阅读 · 2021年5月15日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员