We study the problem of selecting large language models (LLMs) for user queries in settings where multiple LLM providers submit the cost of solving a query. From the users' perspective, choosing an optimal model is a sequential, query-dependent decision problem: high-capacity models offer more reliable outputs but are costlier, while lightweight models are faster and cheaper. We formalize this interaction as a reverse auction design problem with contextual online learning, where the user adaptively discovers which model performs best while eliciting costs from competing LLM providers. Existing multi-armed bandit (MAB) mechanisms focus on forward auctions and social welfare, leaving open the challenges of reverse auctions, provider-optimal outcomes, and contextual adaptation. We address these gaps by designing a resampling-based procedure that generalizes truthful forward MAB mechanisms to reverse auctions and prove that any monotone allocation rule with this procedure is truthful. Using this, we propose a contextual MAB algorithm that learns query-dependent model quality with sublinear regret. Our framework unifies mechanism design and adaptive learning, enabling efficient, truthful, and query-aware LLM selection.


翻译:本文研究在多个大型语言模型(LLM)提供商提交查询处理成本的场景下,如何为用户查询选择合适的LLM。从用户视角看,选择最优模型是一个顺序的、查询相关的决策问题:高容量模型能提供更可靠的输出但成本更高,而轻量级模型则更快、更经济。我们将这种交互形式化为一个结合上下文在线学习的反向拍卖设计问题,其中用户在从竞争的LLM提供商处获取成本的同时,自适应地发现性能最佳的模型。现有的多臂老虎机(MAB)机制主要关注正向拍卖和社会福利,未能解决反向拍卖、提供商最优结果以及上下文自适应等挑战。我们通过设计一种基于重采样的方法来解决这些不足,该方法将真实正向MAB机制推广至反向拍卖,并证明任何采用此方法的单调分配规则都是真实的。基于此,我们提出一种上下文MAB算法,该算法能够以次线性遗憾学习查询相关的模型质量。我们的框架统一了机制设计和自适应学习,实现了高效、真实且具备查询感知能力的LLM选择。

0
下载
关闭预览

相关内容

迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员