Extreme multi-label (XML) classification refers to the task of supervised multi-label learning that involves a large number of labels. Hence, scalability of the classifier with increasing label dimension is an important consideration. In this paper, we develop a method called LightDXML which modifies the recently developed deep learning based XML framework by using label embeddings instead of feature embedding for negative sampling and iterating cyclically through three major phases: (1) proxy training of label embeddings (2) shortlisting of labels for negative sampling and (3) final classifier training using the negative samples. Consequently, LightDXML also removes the requirement of a re-ranker module, thereby, leading to further savings on time and memory requirements. The proposed method achieves the best of both worlds: while the training time, model size and prediction times are on par or better compared to the tree-based methods, it attains much better prediction accuracy that is on par with the deep learning based methods. Moreover, the proposed approach achieves the best tail-label prediction accuracy over most state-of-the-art XML methods on some of the large datasets\footnote{accepted in IJCNN 2023, partial funding from MAPG grant and IIIT Seed grant at IIIT, Hyderabad, India. Code: \url{https://github.com/misterpawan/LightDXML}


翻译:极限多标签分类是指涉及大量标签的监督多标签学习任务。因此,分类器随标签维度增长的扩展性是一个重要考量。本文提出一种称为LightDXML的方法,它改进了近期基于深度学习的XML框架,通过使用标签嵌入而非特征嵌入进行负采样,并以循环方式迭代执行三个主要阶段:(1)标签嵌入的代理训练;(2)用于负采样的标签候选列表生成;(3)利用负样本进行最终分类器训练。因此,LightDXML还移除了重排序模块的需求,从而进一步节省时间和内存需求。所提出的方法实现了两全其美:训练时间、模型大小和预测时间与基于树的方法相当或更优,同时获得了与深度学习方法相媲美的更好预测精度。此外,所提方法在一些大型数据集上,在大多数最先进的XML方法中实现了最佳尾部标签预测精度\footnote{已被IJCNN 2023录用,部分资助来自MAPG基金和印度海得拉巴IIIT的IIIT种子基金。代码:\url{https://github.com/misterpawan/LightDXML}}。

0
下载
关闭预览

相关内容

自然语言处理领域中,判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。采样得到一个上下文词和一个目标词,生成一个正样本(positive example),生成一个负样本(negative example),则是用与正样本相同的上下文词,再在字典中随机选择一个单词,这就是负采样(negative sampling)。
专知会员服务
22+阅读 · 2021年7月28日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
18+阅读 · 2020年8月23日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
11+阅读 · 2018年1月18日
VIP会员
最新内容
基于博弈论的陆军人机协同(长文报告)
专知会员服务
2+阅读 · 今天1:54
美国陆军航空兵:以愿景引领转型
专知会员服务
1+阅读 · 今天1:38
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
以人工智能为中心的指挥控制
专知会员服务
5+阅读 · 6月11日
相关VIP内容
专知会员服务
22+阅读 · 2021年7月28日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
18+阅读 · 2020年8月23日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员