Hierarchies of No-regret Algorithms - 专知论文

会员服务 ·

0

算法 · 博弈 · 学习速率 · 层次结构 · 结构 ·

Hierarchies of No-regret Algorithms

翻译：无遗憾算法层次结构

R. Xu,E. Yachbes,J. Zhang

from arxiv, 8 pages, 12 figures

Our paper studies the setting of players using no-regret algorithms in various two-player games. We address whether having stronger regret guarantees or playing against an opponent with weaker regret guarantees yields higher utilities for the player in question. We consider a hierarchy of algorithms from weakest to strongest: uniform random play, no-regret, and no-swap-regret. We find, counterintuitively, that in many games, no-swap-regret is a worse choice for players (and gives better utility for their opponents). We find the root cause of this phenomenon to be a difference in effective learning rate between the two algorithms, where the no-swap-regret algorithms learn $N$ times slower than no-regret algorithms. To address this, we attempt to equalize learning rates, leading to closer utility between no-regret and no-swap-regret players. Finally, we show that for certain random games with $7$ actions per player, no-swap-regret algorithms can perform noticeably better than no-regret algorithms in a manner that cannot be explained away by unfairly adjusted learning rates.

翻译：本文研究多个玩家在不同两人博弈中采用无遗憾算法的场景。我们探讨了更强的遗憾保证或与拥有更弱遗憾保证的对手对局，是否能为该玩家带来更高收益。我们考虑从弱到强的算法层次：均匀随机选择、无遗憾、无交换遗憾。与直觉相悖的是，在许多博弈中，无交换遗憾对玩家而言是更差的选择（却能为对手带来更好收益）。我们发现该现象的根本原因在于两种算法的有效学习速率差异——无交换遗憾算法的学习速度比无遗憾算法慢N倍。为解决此问题，我们尝试均衡学习速率，使无遗憾与无交换遗憾玩家的收益趋于接近。最后，我们证明在每玩家拥有7种动作的特定随机博弈中，无交换遗憾算法能以无法通过非公平调整学习速率解释的方式，显著优于无遗憾算法。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

64+阅读 · 2022年11月29日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

157+阅读 · 2021年5月9日

【Java实现遗传算法】162页pdf，Genetic Algorithms in Java Basics

【Java实现遗传算法】162页pdf，Genetic Algorithms in Java Basics

专知会员服务

44+阅读 · 2020年7月19日

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

【经典书】算法技术手册，Algorithms in a Nutshell,第二版，389页pdf

【经典书】算法技术手册，Algorithms in a Nutshell,第二版，389页pdf

专知会员服务

163+阅读 · 2020年3月2日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

无穷粗糙曲面反散射问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

弱线性双层规划问题的理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

Efficient representations for team and imperfect-recall equilibrium computation

Arxiv

0+阅读 · 5月3日

Regret Tail Characterization of Optimal Bandit Algorithms with Generic Rewards

Arxiv

0+阅读 · 4月16日

Fast Best-in-Class Regret for Contextual Bandits

Arxiv

0+阅读 · 4月3日

Next-Token Prediction and Regret Minimization

Arxiv

0+阅读 · 3月30日

Efficient Best-of-Both-Worlds Algorithms for Contextual Combinatorial Semi-Bandits

Arxiv

0+阅读 · 3月26日

Practical Efficient Global Optimization is No-regret

Arxiv

0+阅读 · 3月26日

Completeness of Unbounded Best-First Minimax and Descent Minimax

Arxiv

0+阅读 · 3月25日

Optimal Variance-Dependent Regret Bounds for Infinite-Horizon MDPs

Arxiv

0+阅读 · 3月25日

Steering No-Regret Learners to a Desired Equilibrium

Arxiv

0+阅读 · 3月17日

Invariance-Based Dynamic Regret Minimization

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

64+阅读 · 2022年11月29日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

157+阅读 · 2021年5月9日

【Java实现遗传算法】162页pdf，Genetic Algorithms in Java Basics

【Java实现遗传算法】162页pdf，Genetic Algorithms in Java Basics

专知会员服务

44+阅读 · 2020年7月19日

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

【经典书】算法技术手册，Algorithms in a Nutshell,第二版，389页pdf

【经典书】算法技术手册，Algorithms in a Nutshell,第二版，389页pdf

专知会员服务

163+阅读 · 2020年3月2日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

相关论文

Efficient representations for team and imperfect-recall equilibrium computation

Arxiv

0+阅读 · 5月3日

Regret Tail Characterization of Optimal Bandit Algorithms with Generic Rewards

Arxiv

0+阅读 · 4月16日

Fast Best-in-Class Regret for Contextual Bandits

Arxiv

0+阅读 · 4月3日

Next-Token Prediction and Regret Minimization

Arxiv

0+阅读 · 3月30日

Efficient Best-of-Both-Worlds Algorithms for Contextual Combinatorial Semi-Bandits

Arxiv

0+阅读 · 3月26日

Practical Efficient Global Optimization is No-regret

Arxiv

0+阅读 · 3月26日

Completeness of Unbounded Best-First Minimax and Descent Minimax

Arxiv

0+阅读 · 3月25日

Optimal Variance-Dependent Regret Bounds for Infinite-Horizon MDPs

Arxiv

0+阅读 · 3月25日

Steering No-Regret Learners to a Desired Equilibrium

Arxiv

0+阅读 · 3月17日

Invariance-Based Dynamic Regret Minimization

Arxiv

0+阅读 · 3月4日

相关基金

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

无穷粗糙曲面反散射问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

弱线性双层规划问题的理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员