In some problem spaces, the high cost of obtaining ground truth labels necessitates use of lower quality reference datasets. It is difficult to benchmark model performance using these datasets, as evaluation results may be biased. We propose a supplement to using reference labels, which we call an approximate ground truth refinement (AGTR). Using an AGTR, we prove that bounds on specific metrics used to evaluate clustering algorithms and multi-class classifiers can be computed without reference labels. We also introduce a procedure that uses an AGTR to identify inaccurate evaluation results produced from datasets of dubious quality. Creating an AGTR requires domain knowledge, and malware family classification is a task with robust domain knowledge approaches that support the construction of an AGTR. We demonstrate our AGTR evaluation framework by applying it to a popular malware labeling tool to diagnose over-fitting in prior testing and evaluate changes whose impact could not be meaningfully quantified under previous data.


翻译:在某些问题领域,获取地面真相标签的成本高昂,需要使用质量较低的参考数据集,很难用这些数据集来衡量模型性能,因为评价结果可能有偏差。我们建议对使用参考标签进行补充,我们称之为近似地面真相改进(AGTR)。我们使用AGTR,证明可以不使用参考标签来计算用于评价集群算法和多级分类器的具体指标的界限。我们还采用一个程序,利用AGTR来查明从质量可疑的数据集中得出的不准确的评价结果。建立AGTR需要域知识,而恶意软件家庭分类是一项具有可靠领域知识的任务,支持AGTR的构建。我们通过将AGTR评估框架应用到普通的恶意软件标签工具来诊断在先前测试和评价那些影响无法在先前数据下有意义地量化的变化时是否过度适用。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
118+阅读 · 2020年1月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年6月7日
Epistasis Detection Via the Joint Cumulant
Arxiv
0+阅读 · 2021年11月12日
Meta-Learning to Cluster
Arxiv
18+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年6月7日
Top
微信扫码咨询专知VIP会员