We consider the classic Multi-Armed Bandit setting to understand the exploration/exploitation tradeoffs made by different search heuristics. Since many search heuristics work by comparing different options (in evolutionary algorithms called "individuals"; in the Bandit literature called "arms"), we work with the "Dueling Bandits" setting. In each iteration, a comparison between different arms can be made; in the binary stochastic setting, each arm has a fixed winning probability against any other arm. A Condorcet winner is any arm that beats every other arm with a probability strictly higher than $1/2$. We show that evolutionary algorithms are rather bad at identifying the Condorcet winner: Even if the Condorcet winner beats every other arm with a probability $1-p$, the (1+1) EA, in its stationary distribution, chooses the Condorcet winner only with constant probability if $p=Ω(1/n)$. By contrast, we show that a simple EDA (based on the Max-Min Ant System with iteration-best update) will choose the Condorcet winner in its maintained distribution with probability $1-Θ(p)$. As a remedy for the (1+1) EA, we show how repeated duels can significantly boost the probability of the Condorcet winner in the stationary distribution.


翻译:我们考虑经典的多臂赌博机设置,以理解不同搜索启发式算法在探索与利用之间的权衡。由于许多搜索启发式算法通过比较不同选项(在进化算法中称为“个体”;在赌博机文献中称为“臂”)来工作,我们采用“对决赌博机”设置。在每次迭代中,可以对不同臂进行成对比较;在二元随机设置中,每个臂与其他任意臂相比具有固定的获胜概率。康多塞胜者是指以严格高于$1/2$的概率击败所有其他臂的臂。我们证明,进化算法在识别康多塞胜者方面表现较差:即使康多塞胜者以概率$1-p$击败其他所有臂,(1+1) EA在其平稳分布中仅以常数概率选择康多塞胜者,当$p=Ω(1/n)$时。相比之下,我们证明一个简单的EDA(基于最大最小蚂蚁系统与迭代最优更新)在其维护的分布中以概率$1-Θ(p)$选择康多塞胜者。作为(1+1) EA的补救措施,我们展示了重复对决如何能显著提升平稳分布中康多塞胜者的概率。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
智能博弈对抗算法及其在情报领域中的应用*
专知会员服务
39+阅读 · 2024年12月1日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
教程 | 基于遗传算法的拼图游戏解决方案
机器之心
112+阅读 · 2017年11月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
教程 | 基于遗传算法的拼图游戏解决方案
机器之心
112+阅读 · 2017年11月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员