Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts - 专知论文

会员服务 ·

0

Learning · 情景 · ForCES · CASE · Principle ·

Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts

翻译：问一不如问$k$：面向Top-$k$专家的学习推迟框架

Yannis Montreuil,Axel Carlier,Lai Xing Ng,Wei Tsang Ooi

Existing Learning-to-Defer (L2D) frameworks are limited to single-expert deferral, forcing each query to rely on only one expert and preventing the use of collective expertise. We introduce the first framework for Top-$k$ Learning-to-Defer, which allocates queries to the $k$ most cost-effective entities. Our formulation unifies and strictly generalizes prior approaches, including the one-stage and two-stage regimes, selective prediction, and classical cascades. In particular, it recovers the usual Top-1 deferral rule as a special case while enabling principled collaboration with multiple experts when $k>1$. We further propose Top-$k(x)$ Learning-to-Defer, an adaptive variant that learns the optimal number of experts per query based on input difficulty, expert quality, and consultation cost. To enable practical learning, we develop a novel surrogate loss that is Bayes-consistent, $\mathcal{H}_h$-consistent in the one-stage setting, and $(\mathcal{H}_r,\mathcal{H}_g)$-consistent in the two-stage setting. Crucially, this surrogate is independent of $k$, allowing a single policy to be learned once and deployed flexibly across $k$. Experiments across both regimes show that Top-$k$ and Top-$k(x)$ deliver superior accuracy-cost trade-offs, opening a new direction for multi-expert deferral in L2D.

翻译：现有学习推迟框架局限于单专家模式，每个查询仅能依赖单一专家，无法利用集体智慧。我们提出首个Top-$k$学习推迟框架，该框架能将查询分配给成本效益最优的$k$个实体。该形式统一并严格扩展了现有方法，涵盖单阶段与两阶段模式、选择性预测及经典级联结构。特别地，当$k=1$时恢复经典Top-1推迟规则，而$k>1$时则实现与多专家的原则性协作。我们进一步提出自适应变体Top-$k(x)$学习推迟，能根据输入难度、专家质量及咨询成本自适应学习每个查询所需的最佳专家数量。为实现实用化训练，我们开发了新型代理损失函数，该函数在贝叶斯意义上一致，在单阶段设置中满足$\mathcal{H}_h$一致性，在两阶段设置中满足($\mathcal{H}_r,\mathcal{H}_g$)一致性。关键创新在于该代理损失与$k$无关，使得单一策略模型可一次训练并灵活部署于任意$k$值。跨双阶段模型的实验表明，Top-$k$及Top-$k(x)$实现了更优的精度-成本权衡，为L2D领域的多专家推迟开辟了新方向。

0

相关内容

Learning

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

推荐如何用元学习？上海交大最新《深度元学习推荐系统综述》，40页pdf涵盖135篇文献阐述深度学习元学习推荐方法体系

推荐如何用元学习？上海交大最新《深度元学习推荐系统综述》，40页pdf涵盖135篇文献阐述深度学习元学习推荐方法体系

专知会员服务

53+阅读 · 2022年6月14日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

台大最新《深度学习优化问题》硬核课，台大林智仁教授讲解，附课件下载

台大最新《深度学习优化问题》硬核课，台大林智仁教授讲解，附课件下载

专知会员服务

65+阅读 · 2021年5月17日

【ICML2020】学习支持外推的表示学习，Learning Representations that Support Extrapolation

【ICML2020】学习支持外推的表示学习，Learning Representations that Support Extrapolation

专知会员服务

26+阅读 · 2020年7月14日

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

专知会员服务

27+阅读 · 2020年6月10日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

量子位

10+阅读 · 2019年3月25日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

AI科技评论

14+阅读 · 2017年9月3日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

时滞微分差分系统的最小周期问题--天元数学交流项目

国家自然科学基金

0+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

When in Doubt, Plan It Out: Committed Small Language Model Deliberation for Reactive Reinforcement Learning

Arxiv

0+阅读 · 6月15日

OneFeed: A Unified Generative Framework for Feed Content Enhancement and Query Generation

Arxiv

0+阅读 · 6月14日

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

Arxiv

0+阅读 · 6月10日

Towards Optimal Robustness in Learning-Augmented Paging

Arxiv

0+阅读 · 6月8日

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

Arxiv

0+阅读 · 6月6日

Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees

Arxiv

0+阅读 · 6月3日

Active Query Synthesis for Preference Learning

Arxiv

0+阅读 · 5月25日

R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification

Arxiv

0+阅读 · 5月22日

Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts

Arxiv

0+阅读 · 5月20日

Online Learning-to-Defer with Varying Experts

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 45分钟前

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 50分钟前

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

3+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

推荐如何用元学习？上海交大最新《深度元学习推荐系统综述》，40页pdf涵盖135篇文献阐述深度学习元学习推荐方法体系

推荐如何用元学习？上海交大最新《深度元学习推荐系统综述》，40页pdf涵盖135篇文献阐述深度学习元学习推荐方法体系

专知会员服务

53+阅读 · 2022年6月14日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

台大最新《深度学习优化问题》硬核课，台大林智仁教授讲解，附课件下载

台大最新《深度学习优化问题》硬核课，台大林智仁教授讲解，附课件下载

专知会员服务

65+阅读 · 2021年5月17日

【ICML2020】学习支持外推的表示学习，Learning Representations that Support Extrapolation

【ICML2020】学习支持外推的表示学习，Learning Representations that Support Extrapolation

专知会员服务

26+阅读 · 2020年7月14日

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

专知会员服务

27+阅读 · 2020年6月10日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

量子位

10+阅读 · 2019年3月25日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

AI科技评论

14+阅读 · 2017年9月3日

相关论文

When in Doubt, Plan It Out: Committed Small Language Model Deliberation for Reactive Reinforcement Learning

Arxiv

0+阅读 · 6月15日

OneFeed: A Unified Generative Framework for Feed Content Enhancement and Query Generation

Arxiv

0+阅读 · 6月14日

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

Arxiv

0+阅读 · 6月10日

Towards Optimal Robustness in Learning-Augmented Paging

Arxiv

0+阅读 · 6月8日

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

Arxiv

0+阅读 · 6月6日

Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees

Arxiv

0+阅读 · 6月3日

Active Query Synthesis for Preference Learning

Arxiv

0+阅读 · 5月25日

R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification

Arxiv

0+阅读 · 5月22日

Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts

Arxiv

0+阅读 · 5月20日

Online Learning-to-Defer with Varying Experts

Arxiv

0+阅读 · 5月12日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

时滞微分差分系统的最小周期问题--天元数学交流项目

国家自然科学基金

0+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员