In this article, bipartite ranking, a statistical learning problem involved in many applications and widely studied in the passive context, is approached in a much more general \textit{active setting} than the discrete one previously considered in the literature. While the latter assumes that the conditional distribution is piece wise constant, the framework we develop permits in contrast to deal with continuous conditional distributions, provided that they fulfill a Hölder smoothness constraint. We first show that a naive approach based on discretisation at a uniform level, fixed \textit{a priori} and consisting in applying next the active strategy designed for the discrete setting generally fails. Instead, we propose a novel algorithm, referred to as smooth-rank and designed for the continuous setting, which aims to minimise the distance between the ROC curve of the estimated ranking rule and the optimal one w.r.t. the $\sup$ norm. We show that, for a fixed confidence level $ε>0$ and probability $δ\in (0,1)$, smooth-rank is PAC$(ε,δ)$. In addition, we provide a problem dependent upper bound on the expected sampling time of smooth-rank and establish a problem dependent lower bound on the expected sampling time of any PAC$(ε,δ)$ algorithm. Beyond the theoretical analysis carried out, numerical results are presented, providing solid empirical evidence of the performance of the algorithm proposed, which compares favorably with alternative approaches.


翻译:本文探讨了二分排序问题,该统计学习问题在许多应用中均有涉及,并在被动学习情境下得到了广泛研究。与文献中先前考虑的离散设定相比,本文在更为一般的*主动设定*下处理该问题。以往离散设定假设条件分布是分段常数,而本文所建立的框架则允许处理连续的条件分布,前提是这些分布满足Hölder平滑性约束。我们首先指出,基于先验固定均匀水平离散化的朴素方法——即随后应用为离散设定设计的主动策略——通常会失效。相反,我们提出了一种称为smooth-rank的新算法,专为连续设定设计,旨在最小化估计排序规则的ROC曲线与最优ROC曲线在$\sup$范数下的距离。我们证明,对于固定的置信水平$ε>0$和概率$δ\in (0,1)$,smooth-rank是PAC$(ε,δ)$的。此外,我们给出了smooth-rank期望采样时间的问题依赖上界,并建立了任何PAC$(ε,δ)$算法期望采样时间的问题依赖下界。除了进行的理论分析外,本文还展示了数值结果,为所提出算法的性能提供了坚实的实证依据,其表现优于其他替代方法。

0
下载
关闭预览

相关内容

《分布外泛化评估》综述
专知会员服务
44+阅读 · 2024年3月6日
【2023新书】分布测试的主题和技术,163页pdf
专知会员服务
17+阅读 · 2023年1月19日
【博士论文】吉布斯分布的局部、动态与快速采样算法
专知会员服务
29+阅读 · 2021年11月26日
专知会员服务
14+阅读 · 2021年3月13日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
L1和L2正则先验分别服从什么分布
七月在线实验室
11+阅读 · 2019年5月8日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月12日
Arxiv
0+阅读 · 3月1日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员