随机匹配赌博机：罕见优化更新的研究 (Stochastic Matching Bandits with Rare Optimization Updates) - 专知论文

会员服务 ·

0

赌博机 · 算法 · 随机选择 · 组合优化问题 · 优化问题 ·

Stochastic Matching Bandits with Rare Optimization Updates

翻译：随机匹配赌博机：罕见优化更新的研究

Jung-hun Kim,Min-hwan Oh

We introduce a bandit framework for stochastic matching under the multinomial logit (MNL) choice model. In our setting, $N$ agents on one side are assigned to $K$ arms on the other side, where each arm stochastically selects an agent from its assigned pool according to unknown preferences and yields a corresponding reward over a horizon $T$. The objective is to minimize regret by maximizing the cumulative revenue from successful matches. A naive approach requires solving an NP-hard combinatorial optimization problem at every round, resulting in a prohibitive computational cost. To address this challenge, we propose batched algorithms that strategically limit the number of times matching assignments are updated to $Θ(\log\log T)$ over the entire horizon. By invoking expensive combinatorial optimization only on a vanishing fraction of rounds, our algorithms substantially reduce overall computational overhead while still achieving a regret bound of $\widetilde{\mathcal{O}}(\sqrt{T})$.

翻译：本文提出了一种基于多项逻辑特（MNL）选择模型的随机匹配赌博机框架。在我们的设定中，一侧的$N$个智能体被分配到另一侧的$K$个臂上，每个臂根据未知偏好从其分配池中随机选择一个智能体，并在时间范围$T$内产生相应的奖励。目标是通过最大化成功匹配的累计收益来最小化遗憾。一种朴素方法需要在每一轮求解一个NP难组合优化问题，导致计算成本过高。为应对这一挑战，我们提出了批处理算法，策略性地将整个时间范围内匹配分配的更新次数限制为$Θ(\log\log T)$。通过仅在逐渐减少的轮次中调用昂贵的组合优化，我们的算法显著降低了整体计算开销，同时仍实现了$\widetilde{\mathcal{O}}(\sqrt{T})$的遗憾界。

0

相关内容

赌博机

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

24+阅读 · 1月16日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Achieving Optimal Static and Dynamic Regret Simultaneously in Bandits with Deterministic Losses

Arxiv

0+阅读 · 2月17日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

Bandit Learning in Matching Markets with Interviews

Arxiv

0+阅读 · 2月12日

Rising Multi-Armed Bandits with Known Horizons

Arxiv

0+阅读 · 2月11日

Bandits with Single-Peaked Preferences and Limited Resources

Arxiv

0+阅读 · 2月10日

Bandit Allocational Instability

Arxiv

0+阅读 · 2月7日

Individual Regret in Cooperative Stochastic Multi-Armed Bandits

Arxiv

0+阅读 · 2月3日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent

Arxiv

0+阅读 · 1月21日

Efficient Clustering in Stochastic Bandits

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

组合优化问题

最新内容

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

1+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

1+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

2+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

5+阅读 · 今天1:51

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

7+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

4+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

3+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

2+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

5+阅读 · 4月15日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

3+阅读 · 4月15日

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

5+阅读 · 4月15日

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

5+阅读 · 4月15日

《采用系统思维应对混合战争》125页

《采用系统思维应对混合战争》125页

专知会员服务

6+阅读 · 4月15日

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

9+阅读 · 4月15日

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

4+阅读 · 4月15日

相关VIP内容

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

24+阅读 · 1月16日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

87+阅读 · 2022年10月16日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

基于数据优化的人机协同与机器人僚机

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Achieving Optimal Static and Dynamic Regret Simultaneously in Bandits with Deterministic Losses

Arxiv

0+阅读 · 2月17日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

Bandit Learning in Matching Markets with Interviews

Arxiv

0+阅读 · 2月12日

Rising Multi-Armed Bandits with Known Horizons

Arxiv

0+阅读 · 2月11日

Bandits with Single-Peaked Preferences and Limited Resources

Arxiv

0+阅读 · 2月10日

Bandit Allocational Instability

Arxiv

0+阅读 · 2月7日

Individual Regret in Cooperative Stochastic Multi-Armed Bandits

Arxiv

0+阅读 · 2月3日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent

Arxiv

0+阅读 · 1月21日

Efficient Clustering in Stochastic Bandits

Arxiv

0+阅读 · 1月14日

相关基金

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂生产环境下的随机客户订单调度问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员