Ranked decision systems -- recommenders, ad auctions, clinical triage queues -- must decide when to intervene in ranked outputs and when to abstain. We study when confidence-based abstention monotonically improves decision quality, and when it fails. The formal conditions are simple: rank-alignment and no inversion zones. The substantive contribution is identifying why these conditions hold or fail: the distinction between structural uncertainty (missing data, e.g., cold-start) and contextual uncertainty (missing context, e.g., temporal drift). Empirically, we validate this distinction across three domains: collaborative filtering (MovieLens, 3 distribution shifts), e-commerce intent detection (RetailRocket, Criteo, Yoochoose), and clinical pathway triage (MIMIC-IV). Structural uncertainty produces near-monotonic abstention gains in all domains; structurally grounded confidence signals (observation counts) fail under contextual drift, producing as many monotonicity violations as random abstention on our MovieLens temporal split. Context-aware alternatives -- ensemble disagreement and recency features -- substantially narrow the gap (reducing violations from 3 to 1--2) but do not fully restore monotonicity, suggesting that contextual uncertainty poses qualitatively different challenges. Exception labels defined from residuals degrade substantially under distribution shift (AUC drops from 0.71 to 0.61--0.62 across three splits), providing a clean negative result against the common practice of exception-based intervention. The results provide a practical deployment diagnostic: check C1 and C2 on held-out data before deploying a confidence gate, and match the confidence signal to the dominant uncertainty type.


翻译:排序决策系统——推荐系统、广告拍卖、临床分诊队列——必须决定何时干预排序输出,何时选择弃权。我们研究基于置信度的弃权何时能单调提升决策质量,以及何时会失效。其形式化条件很简单:排序对齐性与无反转区域。实质贡献在于识别这些条件成立或失效的原因:结构不确定性(数据缺失,例如冷启动问题)与情境不确定性(情境缺失,例如时间漂移)之间的区别。我们在三个领域通过实证验证了这一区别:协同过滤(MovieLens,3种分布偏移)、电子商务意图检测(RetailRocket、Criteo、Yoochoose)以及临床路径分诊(MIMIC-IV)。结构不确定性在所有领域均产生近乎单调的弃权收益;基于结构的置信度信号(观测计数)在情境漂移下失效,在我们的MovieLens时间划分上产生的单调性违反次数与随机弃权相当。情境感知的替代方案——集成分歧度与时效性特征——显著缩小了差距(将违反次数从3次减少至1–2次),但未能完全恢复单调性,这表明情境不确定性带来了性质不同的挑战。基于残差定义的异常标签在分布偏移下性能显著下降(在三个划分上AUC从0.71降至0.61–0.62),这为基于异常干预的常见做法提供了一个清晰的负面结果。研究结果为实际部署提供了诊断方法:在部署置信门之前,在保留数据上检查条件C1与C2,并使置信度信号与主导的不确定性类型相匹配。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
【博士论文】弱反馈的序列决策问题
专知会员服务
25+阅读 · 2023年1月2日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
7+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
12+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
10+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
10+阅读 · 4月30日
相关VIP内容
【博士论文】弱反馈的序列决策问题
专知会员服务
25+阅读 · 2023年1月2日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员