无参考分类体系评估方法 (Reference-Free Evaluation of Taxonomies) - 专知论文

会员服务 ·

0

无参考 · 相似度 · 相关性 · 语义相似度 · 鲁棒 ·

Reference-Free Evaluation of Taxonomies

翻译：无参考分类体系评估方法

Pascal Wullschleger,Majid Zarharan,Donnacha Daly,Marc Pouly,Jennifer Foster

from arxiv, Under review at ARR January 2026 cycle

We introduce two reference-free metrics for quality evaluation of taxonomies in the absence of labels. The first metric evaluates robustness by calculating the correlation between semantic and taxonomic similarity, addressing error types not considered by existing metrics. The second uses Natural Language Inference to assess logical adequacy. Both metrics are tested on five taxonomies and are shown to correlate well with F1 against ground truth taxonomies. We further demonstrate that our metrics can predict downstream performance in hierarchical classification when used with label hierarchies.

翻译：本文提出了两种无需参考标签即可评估分类体系质量的无参考指标。第一种指标通过计算语义相似度与分类相似度的相关性来评估鲁棒性，解决了现有指标未考虑的误差类型。第二种指标利用自然语言推理评估逻辑完备性。两种指标在五个分类体系上进行了测试，结果显示其与基于真实分类体系的F1分数具有良好相关性。我们进一步证明，当与标签层次结构结合使用时，本研究所提指标能够有效预测层次分类任务的下游性能。

0

相关内容

无参考

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库

TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库

专知会员服务

8+阅读 · 2025年6月29日

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

专知会员服务

42+阅读 · 2023年3月26日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

专知会员服务

15+阅读 · 2022年2月14日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

零样本图像分类综述

专知会员服务

52+阅读 · 2021年5月15日

无参考图像质量评价研究进展

无参考图像质量评价研究进展

专知会员服务

31+阅读 · 2021年2月14日

20年单类别(One-Class)分类全面综述论文，从2001到2020

20年单类别(One-Class)分类全面综述论文，从2001到2020

专知会员服务

23+阅读 · 2021年1月12日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

广义虫草属分类系统重新评估与修订

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models

Arxiv

0+阅读 · 1月28日

Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries

Arxiv

0+阅读 · 1月27日

LLM-based relevance assessment still can't replace human relevance assessment

Arxiv

0+阅读 · 1月19日

Utilizing Class Separation Distance for the Evaluation of Corruption Robustness of Machine Learning Classifiers

Arxiv

0+阅读 · 1月16日

Semiparametric inference for inequality measures under nonignorable nonresponse using callback data

Arxiv

0+阅读 · 1月15日

Hacking Neural Evaluation Metrics with Single Hub Text

Arxiv

0+阅读 · 1月13日

Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model

Arxiv

0+阅读 · 1月11日

Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics

Arxiv

0+阅读 · 1月8日

Reliable Evaluation Protocol for Low-Precision Retrieval

Arxiv

0+阅读 · 1月4日

Generative Classifiers Avoid Shortcut Solutions

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

语义相似度

相关VIP内容

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库

TKDE | 推荐系统鲁棒性全面综述及鲁棒性评测库

专知会员服务

8+阅读 · 2025年6月29日

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

【阿姆斯特丹博士论文】可解释的视觉分类鲁棒性，102页pdf

专知会员服务

42+阅读 · 2023年3月26日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

专知会员服务

15+阅读 · 2022年2月14日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

零样本图像分类综述

专知会员服务

52+阅读 · 2021年5月15日

无参考图像质量评价研究进展

无参考图像质量评价研究进展

专知会员服务

31+阅读 · 2021年2月14日

20年单类别(One-Class)分类全面综述论文，从2001到2020

20年单类别(One-Class)分类全面综述论文，从2001到2020

专知会员服务

23+阅读 · 2021年1月12日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

相关论文

A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models

Arxiv

0+阅读 · 1月28日

Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries

Arxiv

0+阅读 · 1月27日

LLM-based relevance assessment still can't replace human relevance assessment

Arxiv

0+阅读 · 1月19日

Utilizing Class Separation Distance for the Evaluation of Corruption Robustness of Machine Learning Classifiers

Arxiv

0+阅读 · 1月16日

Semiparametric inference for inequality measures under nonignorable nonresponse using callback data

Arxiv

0+阅读 · 1月15日

Hacking Neural Evaluation Metrics with Single Hub Text

Arxiv

0+阅读 · 1月13日

Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model

Arxiv

0+阅读 · 1月11日

Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics

Arxiv

0+阅读 · 1月8日

Reliable Evaluation Protocol for Low-Precision Retrieval

Arxiv

0+阅读 · 1月4日

Generative Classifiers Avoid Shortcut Solutions

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

广义虫草属分类系统重新评估与修订

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员