Learning a Game by Paying the Agents - 专知论文

会员服务 ·

0

博弈 · 效用 · 智能体 · 算法 · 学习算法 ·

Learning a Game by Paying the Agents

翻译：通过支付报酬学习博弈

Brian Hu Zhang,Tao Lin,Yiling Chen,Tuomas Sandholm

We study the problem of learning the utility functions of no-regret learning agents in a repeated normal-form game. Differing from most prior literature, we introduce a principal with the power to observe the agents playing the game, send agents signals, and give agents payments as a function of their actions. We show that the principal can, using a number of rounds polynomial in the size of the game, learn the utility functions of all agents to any desired precision $ε> 0$, for any no-regret learning algorithms of the agents. Our main technique is to formulate a zero-sum game between the principal and the agents, where the principal chooses strategies among the set of all payment functions to minimize the agent's payoff. Finally, we discuss implications for the problem of steering agents. We introduce, using our utility-learning algorithm as a subroutine, the first algorithm for steering arbitrary no-regret learning agents to a desired equilibrium without prior knowledge of their utility functions.

翻译：本文研究了在重复标准型博弈中学习无悔学习智能体效用函数的问题。与大多数现有文献不同，我们引入了一个具备以下能力的主体：观察智能体进行博弈、向智能体发送信号、并根据智能体行动函数给予报酬。我们证明，对于任意无悔学习算法的智能体，该主体能够以博弈规模的多项式轮次数，将所有智能体的效用函数学习到任意期望精度 $ε> 0$。我们的核心技术是构建主体与智能体之间的零和博弈框架，其中主体通过在所有报酬函数集合中选择策略来最小化智能体的收益。最后，我们探讨了该研究对智能体引导问题的启示。通过将我们的效用学习算法作为子程序，我们首次提出了在未知智能体效用函数的情况下，引导任意无悔学习智能体达到期望均衡的算法。

0

相关内容

智能博弈对抗算法及其在情报领域中的应用*

智能博弈对抗算法及其在情报领域中的应用*

专知会员服务

39+阅读 · 2024年12月1日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

90+阅读 · 2024年5月5日

【新书】深度学习中的博弈论应用

【新书】深度学习中的博弈论应用

专知会员服务

84+阅读 · 2024年3月27日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

《计算和学习博弈》美国空军、加州理工15页项目总结报告

《计算和学习博弈》美国空军、加州理工15页项目总结报告

专知会员服务

41+阅读 · 2022年10月3日

斯坦福大学《博弈论基础简介》2017版，A Brief Introduction to the Basics of Game Theory，21页论文

斯坦福大学《博弈论基础简介》2017版，A Brief Introduction to the Basics of Game Theory，21页论文

专知会员服务

33+阅读 · 2022年4月1日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

机器学习算法与Python学习

11+阅读 · 2018年6月29日

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

专知

20+阅读 · 2017年12月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

A potentialization algorithm for games with applications to multi-agent learning in repeated games

Arxiv

0+阅读 · 2月21日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 2月19日

Metric Hedonic Games on the Line

Arxiv

0+阅读 · 2月16日

Learning in Structured Stackelberg Games

Arxiv

0+阅读 · 2月12日

Games with Payments between Learning Agents

Arxiv

0+阅读 · 2月11日

The Learning Approach to Games

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

5+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

20+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

12+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

智能博弈对抗算法及其在情报领域中的应用*

智能博弈对抗算法及其在情报领域中的应用*

专知会员服务

39+阅读 · 2024年12月1日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

90+阅读 · 2024年5月5日

【新书】深度学习中的博弈论应用

【新书】深度学习中的博弈论应用

专知会员服务

84+阅读 · 2024年3月27日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

《计算和学习博弈》美国空军、加州理工15页项目总结报告

《计算和学习博弈》美国空军、加州理工15页项目总结报告

专知会员服务

41+阅读 · 2022年10月3日

斯坦福大学《博弈论基础简介》2017版，A Brief Introduction to the Basics of Game Theory，21页论文

斯坦福大学《博弈论基础简介》2017版，A Brief Introduction to the Basics of Game Theory，21页论文

专知会员服务

33+阅读 · 2022年4月1日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

推荐 | 掌握这12条经验，对理解机器学习至关重要！（可下载PDF）

机器学习算法与Python学习

11+阅读 · 2018年6月29日

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

专知

20+阅读 · 2017年12月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

A potentialization algorithm for games with applications to multi-agent learning in repeated games

Arxiv

0+阅读 · 2月21日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 2月19日

Metric Hedonic Games on the Line

Arxiv

0+阅读 · 2月16日

Learning in Structured Stackelberg Games

Arxiv

0+阅读 · 2月12日

Games with Payments between Learning Agents

Arxiv

0+阅读 · 2月11日

The Learning Approach to Games

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员