Organizations increasingly deploy multiple AI systems across task domains, but selecting a small, high-performing ensemble can require costly model calls, benchmark runs, and human evaluation. We study this selection problem as a distributional variant of multiwinner voting: tasks are drawn from an unknown domain distribution, each task induces feedback over candidate experts, and a committee's value on a task is determined by its best-performing member. We analyze both binary feedback, for tasks with correct/incorrect outcomes, and pairwise feedback, for tasks where candidate outputs are compared by preference. In the binary setting, the induced objective is coverage. We give exhaustive-elicitation baselines and matching worst-case query lower bounds, and we design a failure-conditioned greedy algorithm that preserves the standard $(1-1/e)$ guarantee while obtaining instance-dependent query savings. In the pairwise setting, we study $θ$-winning committees. We show that full-information optimization admits a PTAS but no EPTAS under Gap-ETH, and that the objective is monotone but not submodular. This motivates a weighted ordinal coverage relaxation, which is submodular and supports a failure-conditioned greedy oracle under pairwise feedback. We then convert this oracle back into $θ$-type guarantees through finite-family auditing or a minimax wrapper. We also provide small-scale LLM experiments illustrating the predicted query savings and the role of complementarity in committee selection.


翻译:各类组织日益在多个任务领域部署多个人工智能系统,但选择一个小型且性能优异的集成系统可能需要昂贵的模型调用、基准测试运行和人工评估。我们将此选择问题视为多赢家投票的一种分布变体:任务来自未知领域分布,每个任务引发对候选专家的反馈,且委员会在某一任务上的价值由其表现最佳的成员决定。我们分析针对正确/错误结果的二元反馈,以及通过偏好比较候选输出的成对反馈。在二元设置中,诱导目标函数为覆盖率。我们给出了穷举型启发基线并证明了最坏情况下的查询下界,同时设计了一种基于失败条件的贪心算法,该算法在保持标准$(1-1/e)$保证的同时,实现了依赖于实例的查询节省。在成对设置中,我们研究$θ$-获胜委员会。我们证明,在全信息优化下存在PTAS,但在Gap-ETH假设下不存在EPTAS,且目标函数是单调但非子模的。这促使我们提出一种加权序数覆盖率松弛方法,该松弛具有子模性,并支持在成对反馈下基于失败条件的贪心Oracle。随后,我们通过有限族审计或极小极大包装器将此Oracle转换回$θ$型保证。我们还提供了小规模LLM实验,以说明预测的查询节省及互补性在委员会选择中的作用。

0
下载
关闭预览

相关内容

《基于二元优化与图学习的多智能体行动方案自动生成》
面向算法选择的元学习研究综述
专知会员服务
46+阅读 · 2023年2月11日
常用的模型集成方法介绍:bagging、boosting 、stacking
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
4+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
4+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
5+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
8+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
6+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
8+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
《基于二元优化与图学习的多智能体行动方案自动生成》
面向算法选择的元学习研究综述
专知会员服务
46+阅读 · 2023年2月11日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员