Optimism Without Regularization: Constant Regret in Zero-Sum Games - 专知论文

会员服务 ·

0

博弈 · 正则化 · 算法 · 步长 · 最优 ·

Optimism Without Regularization: Constant Regret in Zero-Sum Games

翻译：无正则化的乐观性：零和博弈中的常数遗憾

John Lazarsfeld,Georgios Piliouras,Ryann Sim,Stratis Skoulakis

from arxiv, NeurIPS 2025

This paper studies the optimistic variant of Fictitious Play for learning in two-player zero-sum games. While it is known that Optimistic FTRL -- a regularized algorithm with a bounded stepsize parameter -- obtains constant regret in this setting, we show for the first time that similar, optimal rates are also achievable without regularization: we prove for two-strategy games that Optimistic Fictitious Play (using any tiebreaking rule) obtains only constant regret, providing surprising new evidence on the ability of non-no-regret algorithms for fast learning in games. Our proof technique leverages a geometric view of Optimistic Fictitious Play in the dual space of payoff vectors, where we show a certain energy function of the iterates remains bounded over time. Additionally, we also prove a regret lower bound of $Ω(\sqrt{T})$ for Alternating Fictitious Play. In the unregularized regime, this separates the ability of optimism and alternation in achieving $o(\sqrt{T})$ regret.

翻译：本文研究用于双人零和博弈学习的乐观型虚拟博弈变体。尽管已知乐观型FTRL——一种具有有界步长参数的正则化算法——在此设定下可获得常数遗憾，但我们首次证明，在没有正则化的情况下也能实现类似的、最优的收敛速率：针对双策略博弈，我们证明乐观型虚拟博弈（使用任意平局决胜规则）仅产生常数遗憾，这为无遗憾算法在博弈中实现快速学习的能力提供了令人惊讶的新证据。我们的证明技术利用了乐观型虚拟博弈在收益向量对偶空间中的几何视角，其中我们证明了迭代序列的某个能量函数随时间保持有界。此外，我们还证明了交替虚拟博弈的遗憾下界为$Ω(\sqrt{T})$。在无正则化机制下，这区分了乐观策略与交替策略在实现$o(\sqrt{T})$遗憾方面的能力差异。

0

相关内容

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

何恺明大神的「Focal Loss」，如何更好地理解？

何恺明大神的「Focal Loss」，如何更好地理解？

PaperWeekly

10+阅读 · 2017年12月28日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

一般半群和广义正则半群的代数理论

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

向量变分不等式的间隙函数与误差界研究

国家自然科学基金

0+阅读 · 2014年12月31日

变分法与非线性微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

Two-Player Zero-Sum Games with Bandit Feedback

Arxiv

0+阅读 · 2月19日

Statistical Equilibrium of Optimistic Beliefs

Arxiv

0+阅读 · 2月10日

Teaching an Old Dynamics New Tricks: Regularization-free Last-iterate Convergence in Zero-sum Games via BNN Dynamics

Arxiv

0+阅读 · 2月9日

Online Learning for Uninformed Markov Games: Empirical Nash-Value Regret and Non-Stationarity Adaptation

Arxiv

0+阅读 · 2月6日

Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games

Arxiv

0+阅读 · 2月4日

Odd but Error-Free FastTwoSum: More General Conditions for FastTwoSum as an Error-Free Transformation for Faithful Rounding Modes

Arxiv

0+阅读 · 1月31日

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

(Doubly) Exponential Lower Bounds for Follow the Regularized Leader in Potential Games

Arxiv

0+阅读 · 1月30日

Last-iterate Convergence for Symmetric, General-sum, $2 \times 2$ Games Under The Exponential Weights Dynamic

Arxiv

0+阅读 · 1月20日

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

5+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

7+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

6+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

10+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

11+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

10+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

何恺明大神的「Focal Loss」，如何更好地理解？

何恺明大神的「Focal Loss」，如何更好地理解？

PaperWeekly

10+阅读 · 2017年12月28日

相关论文

Two-Player Zero-Sum Games with Bandit Feedback

Arxiv

0+阅读 · 2月19日

Statistical Equilibrium of Optimistic Beliefs

Arxiv

0+阅读 · 2月10日

Teaching an Old Dynamics New Tricks: Regularization-free Last-iterate Convergence in Zero-sum Games via BNN Dynamics

Arxiv

0+阅读 · 2月9日

Online Learning for Uninformed Markov Games: Empirical Nash-Value Regret and Non-Stationarity Adaptation

Arxiv

0+阅读 · 2月6日

Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games

Arxiv

0+阅读 · 2月4日

Odd but Error-Free FastTwoSum: More General Conditions for FastTwoSum as an Error-Free Transformation for Faithful Rounding Modes

Arxiv

0+阅读 · 1月31日

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

(Doubly) Exponential Lower Bounds for Follow the Regularized Leader in Potential Games

Arxiv

0+阅读 · 1月30日

Last-iterate Convergence for Symmetric, General-sum, $2 \times 2$ Games Under The Exponential Weights Dynamic

Arxiv

0+阅读 · 1月20日

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization

Arxiv

0+阅读 · 1月19日

相关基金

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

一般半群和广义正则半群的代数理论

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

向量变分不等式的间隙函数与误差界研究

国家自然科学基金

0+阅读 · 2014年12月31日

变分法与非线性微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员