一种具有最佳双世界保证的$m$集半赌博问题高效算法 (A Further Efficient Algorithm with Best-of-Both-Worlds Guarantees for $m$-Set Semi-Bandit Problem) - 专知论文

会员服务 ·

0

最优 · 最优性 · 重采样 · 算法 · 对抗 ·

A Further Efficient Algorithm with Best-of-Both-Worlds Guarantees for $m$-Set Semi-Bandit Problem

翻译：一种具有最佳双世界保证的$m$集半赌博问题高效算法

Botao Chen,Jongyeong Lee,Chansoo Kim,Junya Honda

This paper studies the optimality and complexity of Follow-the-Perturbed-Leader (FTPL) policy in $m$-set semi-bandit problems. FTPL has been studied extensively as a promising candidate of an efficient algorithm with favorable regret for adversarial combinatorial semi-bandits. Nevertheless, the optimality of FTPL has still been unknown unlike Follow-the-Regularized-Leader (FTRL) whose optimality has been proved for various tasks of online learning. In this paper, we extend the analysis of FTPL with geometric resampling (GR) to $m$-set semi-bandits, which is a special case of combinatorial semi-bandits, showing that FTPL with Fréchet and Pareto distributions with certain parameters achieves the best possible regret of $O(\sqrt{mdT})$ in adversarial setting. We also show that FTPL with Fréchet and Pareto distributions with a certain parameter achieves a logarithmic regret for stochastic setting, meaning the Best-of-Both-Worlds optimality of FTPL for $m$-set semi-bandit problems. Furthermore, we extend the conditional geometric resampling to $m$-set semi-bandits for efficient loss estimation in FTPL, reducing the computational complexity from $O(d^2)$ of the original geometric resampling to $O(md(\log(d/m)+1))$ without sacrificing the regret performance.

翻译：本文研究了$m$集半赌博问题中跟随扰动领导者（FTPL）策略的最优性与计算复杂度。FTPL作为一种在对抗性组合半赌博问题中具有优越遗憾界的高效算法，已得到广泛研究。然而，与已在多种在线学习任务中被证明最优性的跟随正则化领导者（FTRL）不同，FTPL的最优性始终未被证实。本文通过将几何重采样（GR）的FTPL分析扩展至$m$集半赌博问题（组合半赌博问题的特例），证明采用特定参数的Fréchet分布与Pareto分布的FTPL在对抗性环境下可实现$O(\sqrt{mdT})$的最优遗憾界。同时，我们证明采用特定参数的Fréchet分布与Pareto分布的FTPL在随机环境下可实现对数遗憾界，这意味着FTPL在$m$集半赌博问题上达到了最佳双世界最优性。此外，我们将条件几何重采样技术扩展至$m$集半赌博问题，以提升FTPL中损失估计的效率，在保持遗憾性能不变的前提下，将计算复杂度从原始几何重采样的$O(d^2)$降低至$O(md(\log(d/m)+1))$。

0

相关内容

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

28+阅读 · 2024年5月29日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

37+阅读 · 2023年8月31日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

专知会员服务

18+阅读 · 2019年11月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多类秘书问题的最优算法设计及竞争比分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

Policy Iteration for Two-Player General-Sum Stochastic Stackelberg Games

Arxiv

0+阅读 · 3月16日

Learning to Play Multi-Follower Bayesian Stackelberg Games

Arxiv

0+阅读 · 3月1日

An $ε$-Optimal Sequential Approach for Solving zs-POSGs

Arxiv

0+阅读 · 2月27日

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Arxiv

0+阅读 · 2月19日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Convergence rates of random-order best-response dynamics in public good games on networks

Arxiv

0+阅读 · 2月17日

Achieving Optimal Static and Dynamic Regret Simultaneously in Bandits with Deterministic Losses

Arxiv

0+阅读 · 2月17日

Self-Concordant Perturbations for Linear Bandits

Arxiv

0+阅读 · 2月12日

A Jointly Efficient and Optimal Algorithm for Heteroskedastic Generalized Linear Bandits with Adversarial Corruptions

Arxiv

0+阅读 · 2月11日

(Doubly) Exponential Lower Bounds for Follow the Regularized Leader in Potential Games

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

专知会员服务

1+阅读 · 29分钟前

技术、多域威慑与海上战争（报告）

技术、多域威慑与海上战争（报告）

专知会员服务

1+阅读 · 35分钟前

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

1+阅读 · 43分钟前

“在云端防御”：提升北约数据韧性（报告）

“在云端防御”：提升北约数据韧性（报告）

专知会员服务

1+阅读 · 45分钟前

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

专知会员服务

1+阅读 · 50分钟前

2026年伊朗战争对美国通胀的影响：情景分析（报告）

2026年伊朗战争对美国通胀的影响：情景分析（报告）

专知会员服务

0+阅读 · 52分钟前

人工智能及其在海军行动中的整合（综述）

人工智能及其在海军行动中的整合（综述）

专知会员服务

0+阅读 · 今天14:07

美以伊冲突：无人机主导的第三次海湾战争反防空作战

美以伊冲突：无人机主导的第三次海湾战争反防空作战

专知会员服务

0+阅读 · 今天13:56

多模态XR-AI训练系统提升联合作战中的沟通技能（中文万字长文）

多模态XR-AI训练系统提升联合作战中的沟通技能（中文万字长文）

专知会员服务

2+阅读 · 今天13:40

美军MAVEN项目全面解析：算法战架构

美军MAVEN项目全面解析：算法战架构

专知会员服务

16+阅读 · 今天8:36

从俄乌战场看“马赛克战”（万字长文）

从俄乌战场看“马赛克战”（万字长文）

专知会员服务

10+阅读 · 今天8:19

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

10+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

9+阅读 · 4月12日

最新“指挥控制”领域出版物合集（16份）

最新“指挥控制”领域出版物合集（16份）

专知会员服务

16+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

22+阅读 · 4月12日

相关VIP内容

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

28+阅读 · 2024年5月29日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

37+阅读 · 2023年8月31日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

【ICCV 2019 Toturial】Global Optimization for Geometric Understanding with Provable Guarantees（具有可证明保证的几何理解的全局优化）

专知会员服务

18+阅读 · 2019年11月1日

热门VIP内容

开通专知VIP会员享更多权益服务

技术、多域威慑与海上战争（报告）

“在云端防御”：提升北约数据韧性（报告）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

随机网络效用最大化在战略排队系统中的博弈论方法

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

相关论文

Policy Iteration for Two-Player General-Sum Stochastic Stackelberg Games

Arxiv

0+阅读 · 3月16日

Learning to Play Multi-Follower Bayesian Stackelberg Games

Arxiv

0+阅读 · 3月1日

An $ε$-Optimal Sequential Approach for Solving zs-POSGs

Arxiv

0+阅读 · 2月27日

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Arxiv

0+阅读 · 2月19日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Convergence rates of random-order best-response dynamics in public good games on networks

Arxiv

0+阅读 · 2月17日

Achieving Optimal Static and Dynamic Regret Simultaneously in Bandits with Deterministic Losses

Arxiv

0+阅读 · 2月17日

Self-Concordant Perturbations for Linear Bandits

Arxiv

0+阅读 · 2月12日

A Jointly Efficient and Optimal Algorithm for Heteroskedastic Generalized Linear Bandits with Adversarial Corruptions

Arxiv

0+阅读 · 2月11日

(Doubly) Exponential Lower Bounds for Follow the Regularized Leader in Potential Games

Arxiv

0+阅读 · 1月30日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多类秘书问题的最优算法设计及竞争比分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员