Completeness of Unbounded Best-First Minimax and Descent Minimax - 专知论文

会员服务 ·

0

算法 · 极大 · 完备化 · 搜索 · 博弈 ·

Completeness of Unbounded Best-First Minimax and Descent Minimax

翻译：无界最佳优先极小化极大与下降极小化的完备性

Quentin Cohen-Solal

In this article, we focus on search algorithms for two-player perfect information games, whose objective is to determine the best possible strategy, and ideally a winning strategy. Unfortunately, some search algorithms for games in the literature are not able to always determine a winning strategy, even with an infinite search time. This is the case, for example, of the following algorithms: Unbounded Best-First Minimax and Descent Minimax, which are core algorithms in state-of-the-art knowledge-free reinforcement learning. They were then improved with the so-called completion technique. However, whether this technique sufficiently improves these algorithms to allow them to always determine a winning strategy remained an open question until now. To answer this question, we generalize the two algorithms (their versions using the completion technique), and we show that any algorithm of this class of algorithms computes the best strategy. Finally, we experimentally show that the completion technique improves winning performance.

翻译：本文聚焦于双人完美信息博弈的搜索算法，其目标是确定最优策略，理想情况下为获胜策略。然而，文献中部分博弈搜索算法即使具备无限搜索时间，也无法始终确定获胜策略。例如，以下算法即属此类：无界最佳优先极小化极大与下降极小化极大——它们是当前无知识强化学习领域核心算法。随后，研究者通过所谓的完备化技术对其进行改进。但该技术是否足以使这些算法始终能够确定获胜策略，此前始终悬而未决。为解答此问题，我们对这两种算法（采用完备化技术的版本）进行泛化，证明此类算法中的任意一种均能计算最优策略。最后，通过实验证明完备化技术可提升获胜性能。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【阿姆斯特丹博士论文】优化、博弈与泛化界，208页pdf

【阿姆斯特丹博士论文】优化、博弈与泛化界，208页pdf

专知会员服务

31+阅读 · 2024年11月16日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

专知会员服务

244+阅读 · 2021年4月12日

深度学习组合优化，30页ppt，阿姆斯特丹Wouter Kool讲授

深度学习组合优化，30页ppt，阿姆斯特丹Wouter Kool讲授

专知会员服务

27+阅读 · 2021年2月27日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知会员服务

281+阅读 · 2020年7月2日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

992页《初等微积分：无穷小方法》书籍【附下载】

992页《初等微积分：无穷小方法》书籍【附下载】

专知

29+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

机器之心

10+阅读 · 2018年9月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

Efficient representations for team and imperfect-recall equilibrium computation

Arxiv

0+阅读 · 5月3日

Infinite lexicographic products of positional objectives

Arxiv

0+阅读 · 4月30日

From Gödel incompleteness to the consistency of circuit lower bounds

Arxiv

0+阅读 · 4月28日

Minimax Optimal Procedures for Joint Detection and Estimation

Arxiv

0+阅读 · 4月24日

On the equivalence of semidefinite programming and zero-sum semidefinite games

Arxiv

0+阅读 · 4月24日

Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension

Arxiv

0+阅读 · 4月19日

Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

Arxiv

0+阅读 · 4月19日

Best of both worlds: Stochastic & adversarial best-arm identification

Arxiv

0+阅读 · 4月16日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Efficient Best-of-Both-Worlds Algorithms for Contextual Combinatorial Semi-Bandits

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【阿姆斯特丹博士论文】优化、博弈与泛化界，208页pdf

【阿姆斯特丹博士论文】优化、博弈与泛化界，208页pdf

专知会员服务

31+阅读 · 2024年11月16日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

专知会员服务

244+阅读 · 2021年4月12日

深度学习组合优化，30页ppt，阿姆斯特丹Wouter Kool讲授

深度学习组合优化，30页ppt，阿姆斯特丹Wouter Kool讲授

专知会员服务

27+阅读 · 2021年2月27日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知会员服务

281+阅读 · 2020年7月2日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

992页《初等微积分：无穷小方法》书籍【附下载】

992页《初等微积分：无穷小方法》书籍【附下载】

专知

29+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

机器之心

10+阅读 · 2018年9月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

Efficient representations for team and imperfect-recall equilibrium computation

Arxiv

0+阅读 · 5月3日

Infinite lexicographic products of positional objectives

Arxiv

0+阅读 · 4月30日

From Gödel incompleteness to the consistency of circuit lower bounds

Arxiv

0+阅读 · 4月28日

Minimax Optimal Procedures for Joint Detection and Estimation

Arxiv

0+阅读 · 4月24日

On the equivalence of semidefinite programming and zero-sum semidefinite games

Arxiv

0+阅读 · 4月24日

Discrepancies are Virtue: Weak-to-Strong Generalization through Lens of Intrinsic Dimension

Arxiv

0+阅读 · 4月19日

Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

Arxiv

0+阅读 · 4月19日

Best of both worlds: Stochastic & adversarial best-arm identification

Arxiv

0+阅读 · 4月16日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Efficient Best-of-Both-Worlds Algorithms for Contextual Combinatorial Semi-Bandits

Arxiv

0+阅读 · 3月26日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员