Adaptive Bandit Algorithms for Contextual Matching Markets - 专知论文

会员服务 ·

0

赌博机/老虎机 · Learning · 线性的 · ARM · AIM ·

Adaptive Bandit Algorithms for Contextual Matching Markets

翻译：自适应带算法在上下文匹配市场中的应用

Shiyun Lin,Simon Mauras,Vianney Perchet,Nadav Merlis

from arxiv, Accepted to ICML 2026

We study bandit learning in matching markets, where players and arms constitute the two market sides, and the players' utilities are linear in the arm contexts. In each round, new arms arrive with observable contexts. Then, the algorithm matches them to players, aiming to minimize each player's regret against a stable matching benchmark. This contextual structure creates significant complexity: subtle context shifts can slightly alter one player's utility while completely reconfiguring the underlying benchmark, causing large regret spikes for others. We address this in two settings: stochastic contexts, drawn from a latent distribution, and adversarial contexts, which may be arbitrary. For the stochastic case, we introduce a novel minimum preference gap to capture learning difficulty and provide a fully adaptive algorithm with an instance-dependent poly-logarithmic regret upper bound. We also establish matching instance-independent regret upper and lower bounds under a mild distributional assumption. For the adversarial setting, we propose a tractable regret notion that remains valid under arbitrary contexts and achieves an instance-independent sublinear regret bound via an adaptive algorithm.

翻译：我们研究匹配市场中的赌博机学习问题，其中参与者和臂构成市场的双方，参与者的效用与臂的上下文呈线性关系。每一轮中，新臂会携带可观察的上下文到达。随后，算法将这些臂匹配给参与者，旨在以稳定匹配基准为参照，最小化每个参与者的遗憾。这种上下文结构带来了显著复杂性：细微的上下文偏移可能轻微改变某个参与者的效用，却会完全重构底层基准，从而为其他参与者引发巨大的遗憾峰值。我们针对两种场景解决此问题：一种是从潜在分布中随机抽取的随机上下文，另一种是可能任意生成的对抗上下文。对于随机情况，我们引入最小偏好差距这一新概念来刻画学习难度，并提出一种完全自适应的算法，实现实例依赖的多对数遗憾上界。同时在温和的分布假设下，我们建立了实例无关的遗憾上下界匹配结果。对于对抗环境，我们提出一种在任意上下文中仍有效的可处理遗憾概念，并通过自适应算法实现实例无关的次线性遗憾界。

0

相关内容

赌博机/老虎机

赌博机/老虎机

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

40+阅读 · 2023年6月2日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知会员服务

50+阅读 · 2021年1月30日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

RFID跨企业集成中下游驱动的供应链动态博弈与协调研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Learning in Matching Games with Bandit Feedback

Arxiv

0+阅读 · 6月16日

Decision-Weighted Flow Matching for Contextual Stochastic Optimization

Arxiv

0+阅读 · 6月15日

Mixing Makes Markovian Contexts Cheap for Linear Bandits

Arxiv

0+阅读 · 6月11日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader

Arxiv

0+阅读 · 6月4日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Asymptotic Theory and Sequential Testing for Adaptive Bandits

Arxiv

0+阅读 · 5月30日

Efficient Adjoint Matching for Fine-tuning Diffusion Models

Arxiv

0+阅读 · 5月17日

Optimal Learning-Augmented Algorithm for Online Bidding

Arxiv

0+阅读 · 5月8日

Two-sided Assortment Optimization: Adaptivity Gaps and Approximation Algorithms

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

赌博机/老虎机

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

40+阅读 · 2023年6月2日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知会员服务

50+阅读 · 2021年1月30日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【AAAI2021】基于图神经网络的文本语义匹配算法

【AAAI2021】基于图神经网络的文本语义匹配算法

专知

17+阅读 · 2021年1月30日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Learning in Matching Games with Bandit Feedback

Arxiv

0+阅读 · 6月16日

Decision-Weighted Flow Matching for Contextual Stochastic Optimization

Arxiv

0+阅读 · 6月15日

Mixing Makes Markovian Contexts Cheap for Linear Bandits

Arxiv

0+阅读 · 6月11日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader

Arxiv

0+阅读 · 6月4日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Asymptotic Theory and Sequential Testing for Adaptive Bandits

Arxiv

0+阅读 · 5月30日

Efficient Adjoint Matching for Fine-tuning Diffusion Models

Arxiv

0+阅读 · 5月17日

Optimal Learning-Augmented Algorithm for Online Bidding

Arxiv

0+阅读 · 5月8日

Two-sided Assortment Optimization: Adaptivity Gaps and Approximation Algorithms

Arxiv

0+阅读 · 5月6日

相关基金

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

RFID跨企业集成中下游驱动的供应链动态博弈与协调研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员